记录一次线上因kafka宕机而导致java服务cpu飙升的情况

问题背景

线上kafka(自搭)所在服务器,因为防火墙问题,导致线上服务无法连接,从而开始持续重试。

发消息为异步发送,且线上业务服务qps为4000

定位问题:问题定位较为简单,查看日志(本地模拟日志)

2025-01-04T14:41:25,577 INFO  [kafka-producer-network-thread | producer-1] org.apache.kafka.clients.NetworkClient: [Producer clientId=producer-1] Disconnecting from node -1 due to socket connection setup timeout. The timeout value is 8073 ms.
2025-01-04T14:41:25,578 WARN  [kafka-producer-network-thread | producer-1] org.apache.kafka.clients.NetworkClient$DefaultMetadataUpdater: [Producer clientId=producer-1] Bootstrap broker 192.168.8.16:9092 (id: -1 rack: null) disconnected
2025-01-04T14:41:46,696 INFO  [kafka-producer-network-thread | producer-1] org.apache.kafka.clients.NetworkClient: [Producer clientId=producer-1] Node -1 disconnected.
2025-01-04T14:41:46,696 WARN  [kafka-producer-network-thread | producer-1] org.apache.kafka.clients.NetworkClient: [Producer clientId=producer-1] Connection to node -1 (/192.168.8.16:9092) could not be established. Broker may not be available.

通过日志发现是kafka连接错误,且持续的重连

解决问题:解决也很简单,网络互通后,问题解决。


引发思考,为什么会导致服务器CPU飙升?

spring kafka producer的失败重试

spring kafka的失败重试为默认无限重试,每次请求都会发送消息进行kafka的重连尝试,从而最终导致jvm cpu飙升,服务请求拒绝

kafka集群中的某台服务宕机时,我们可以采取以下步骤来恢复kafka partition数据: 1. 首先,我们需要检查宕机服务器的硬件状况并确保服务器可以正常启动。如果是硬件故障导致宕机,我们需要修复或更换故障的硬件设备。 2. 然后,我们需要找出宕机服务器上的kafka数据目录。在该目录中,我们可以找到kafka partition的日志和索引文件,以及其他相关的元数据。 3. 接下来,我们需要将宕机服务器上的数据目录复制到一台正常运行的kafka服务器上。确保复制过程中保持数据的一致性。 4. 一旦数据目录复制完成,我们需要更新kafka的配置文件以指向新的数据目录。在配置文件中,我们需要修改`log.dirs`参数来指定新的数据目录路径。 5. 在更新配置文件后,我们可以启动kafka服务器,并使用命令`bin/kafka-server-start.sh <path_to_config_file>`来启动kafka。 6. 一旦kafka服务器成功启动,它将读取复制的数据目录,并恢复partition的数据。在此过程中,kafka会检查和修复任何可能的数据损坏。 7. 最后,我们可以使用kafka的工具来验证数据恢复的情况。通过连接到kafka服务器并使用命令行工具来消费和生产消息,我们可以确保partition的数据已成功恢复。 总结而言,当kafka集群中的某台服务宕机时,我们可以通过将宕机服务器上的数据复制到正常服务器上,并更新配置文件来恢复kafka partition的数据。这样,在新的服务器上启动kafka后,数据将会被读取和恢复,从而保证数据的一致性和可用性。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值