背景
某线上日志收集服务报警,打开域名报502错误码。 收集服务由2台netty HA服务器组成,netty服务器将客户端投递来的protobuf日志解析并发送到kafka,打开其中一个应用的日志,发现如下报错:
org.apache.kafka.common.errors.TimeoutException: Expiring 1 record(s)
在排除了netty服务的错误之后,去查看kafka的日志。 发现报错,排查过程如下;
配置信息
系统 | kafka版本 | broker数量 |
---|---|---|
CentOS7.4 | 2.1.0 | 3 |
线上有三台Kafka Broker,id分别为0、1、2,服务器只部署了Kafka服务。
问题
线程是否存活
首先jps查看Kafka线程是否存活,三台机器都没问题,kafka依然在运行。
GC问题
查看kafkaServer-gc.log.1.current的日志,gc日志没发现异常。
Broker 0/server.log
[2019-08-02 15:17:03,699] WARN Attempting to send response via channel for which there is no open connection, connection id 172.21.3.14:9092-172.21.3.11:54311-107706 (kafka.network.Processor)
[2019-08-02 15:19:12,490] INFO [GroupMetadataManager brokerId=0] Removed 0 expired offsets in 0 milliseconds. (kafka.coordinator.group.GroupMetadataManager) [2019-08-02 15:26:54,405] INFO [ReplicaFetcher replicaId=0, leaderId=1, fetcherId=0] Error sending fetch request (sessionId=1112819217, epoch=1897450) to node 1: java.io.IOException: Connection to 1 was disconnected before the response was read. (org.apache.kafka.clients.FetchSessionHandler) [2019-08-02 15: