1.概述
今天有个现场环境,flink消费kafka,然后这个环境出现了一个这样的异常现象,就是flink消费几十万的数据之后,任务卡死,然后我们因为环境问题不能看flink ui,下载日志后发现没有报错信息。
但是后面尝试修改消费组然后就可以正常消费数据了,没修改之前是大约7分钟就会卡死,改了消费组后后面大约1个多小时后才卡死。
后面人家说他们操作了Kafka的日志,原因是服务器磁盘快满了,然后就问怎么清理的数据,他们说是使用echo "" > xx.log
这样直接暴力删除某个时间段的日志。
我一看这样暴力删除,就感觉有问题,因此想去验证一下。
此问题参考:【Flink】Flink 消费kafka 运行一段时间后卡死
2.案例
我们先启动一个kafka
lcc@lcc kafka