1. 说明
版本:confluent 2.0.0
关于kafka connect的offset commit机制,看这里:
http://blog.youkuaiyun.com/xianzhen376/article/details/51896604
2. hdfs connector恢复机制
2.1 关键点:
- 写入hdfs的最后一条记录的offset,记录在文件名中;
- 数据是不停的往tmp文件写,然后rename至目标文件的,详见:
http://blog.youkuaiyun.com/xianzhen376/article/details/51831448 - 不同kafka 分区的数据 独立进行offset 编号;
- 不同kafka 分区的数据 不会写往同一hdfs文件;
2.2 恢复流程:
恢复处理是基于kafka 分区的
- 从hdfs 中根据文件名拿到最后一条记录的offset,假设为12345678;
- 通知kafka 该分区的数据,connect consumer group下次从12345678开始读数据;