当前位置: > > > > Go Kafka `ProduceChannel()` 填满并挂起
来源:stackoverflow
2024-04-26 19:51:36
0浏览
收藏
本篇文章向大家介绍《Go Kafka `ProduceChannel()` 填满并挂起》,主要包括,具有一定的参考价值,需要的朋友可以参考一下。
问题内容
我有一个用 go 编写的服务器端应用程序,用于生成 kafka 事件。它完美运行了几天,每秒生成约 1.6k 条消息,然后遇到了一个偶发问题,所有 kafka 消息发送都停止,并且需要手动重新启动服务器应用程序才能恢复发送 kafka 消息。
我提供了事件开始时指标图表的屏幕截图。注释我所看到的情况:
-
应用程序连续 7 天运行完美。对于排队的每条消息,都会有一个发送事件通知发送到
kafkaproducer.events()
。您可以看到排队数 = 已交付数。 -
10:39:问题开始了。送达通知计数很快降至零。 kafka 消息不断排队,但回调停止。
-
10:52:
kafkaproducer.producechannel()
已填满,并尝试将新消息排队到 go 通道中,从而阻塞 goroutine。此时,应用程序将永远不会再次发送 kafka 消息,除非手动重新启动。 -
17:55:我手动重新启动了应用程序。 kafka 消息队列/传递恢复。 kafka_product_attempts 回落为零。
我的 go 代码发送 kafka 消息的唯一地方是这里:
recordchannelgauge.inc() kafkaproducer.producechannel() <- &msg recordchannelgauge.dec()
在指标屏幕截图中,请注意 recordchannelgauge
通常保持为零,因为将消息发送到 kafka producechannel()
不会阻塞,并且每个 inc()
后立即紧跟一个匹配的 dec()
但是,当producechannel()
已满,goroutine 阻塞,recordchannelgauge
保持为 1,并且在手动重新启动应用程序之前永远不会解除阻塞。
仅供参考,我的环境详细信息:
- 使用 golang 1.10.x 构建的 go 服务器二进制文件
- 最新版本的
github.com/confluenceinc/confluence-kafka-go/kafka
。这个库不使用版本,它使用最新的 git 提交,在撰写本文时已经有 2 个月了,所以我确信我正在使用最新版本。 - 服务器操作系统 ubuntu 16.04.5
- librdkafka1版本librdka0.11.6~1confluence5.0.1-
我怀疑这是由于 confluenceinc go 客户端中的一些内部问题造成的,它无法正确处理某些错误情况。
此外,我在问题发生时没有看到相关的日志输出。在问题发生之前,我确实看到零星的 kafka 代理断开连接并在日志中出现超时错误,但问题似乎并不严重。这些日志消息每隔几个小时左右就会发生一次,持续几天,没有造成严重后果。
Nov 26 06:52:04 01 appserver.linux[6550]: %4|1543215124.447|REQTMOUT|rdkafka#producer-1| [thrd:kafka-broker-3:9092/bootstrap]: kafka-broker-3:9092/bootstrap: Timed out 0 in-flight, 1 retry-queued, 0 out-queue, 0 partially-sent requests Nov 26 06:52:10 01 appserver.linux[6550]: %4|1543215130.448|REQTMOUT|rdkafka#producer-1| [thrd:kafka-broker-3:9092/bootstrap]: kafka-broker-3:9092/bootstrap: Timed out 0 in-flight, 1 retry-queued, 0 out-queue, 0 partially-sent requests Nov 26 08:46:57 01 appserver.linux[6550]: 2018/11/26 08:46:57 Ignored event: kafka-broker-2:9092/bootstrap: Disconnected (after 600000ms in state UP) Nov 26 08:47:02 01 appserver.linux[6550]: %4|1543222022.803|REQTMOUT|rdkafka#producer-1| [thrd:kafka-broker-2:9092/bootstrap]: kafka-broker-2:9092/bootstrap: Timed out 0 in-flight, 1 retry-queued, 0 out-queue, 0 partially-sent requests Nov 26 08:47:09 01 appserver.linux[6550]: %4|1543222029.807|REQTMOUT|rdkafka#producer-1| [thrd:kafka-broker-2:9092/bootstrap]: kafka-broker-2:9092/bootstrap: Timed out 0 in-flight, 1 retry-queued, 0 out-queue, 0 partially-sent requests
放大到问题发生
缩小以显示之前和之后
解决方案
我有和你类似的问题。我找到了一篇文章可能会解释问题的原因。
当被阻止的主题中没有消息时,经过一定时间后,您将出现如下超时错误。
%5|1598190018.518|REQTMOUT|rdkafka#consumer-1| [thrd:sasl_ssl://abcd....confluent.cloud:xxxx/2]: sasl_ssl://abcd....confluent.cloud:xxxx/2: Timed out FetchRequest in flight (after 359947ms, timeout #0) %4|1598190018.840|REQTMOUT|rdkafka#consumer-1| [thrd:sasl_ssl://abcd.confluent.cloud:xxxx/2]: sasl_ssl://abcd.xxxxx.confluent.cloud:xxxx/2: Timed out 1 in-flight, 0 retry-queued, 0 out-queue, 0 partially-sent requests
文章链接:
希望对您有帮助。
今天关于《Go Kafka `ProduceChannel()` 填满并挂起》的内容介绍就到此结束,如果有什么疑问或者建议,可以在公众号下多多回复交流;文中若有不正之处,也希望回复留言以告知!