spark createDirectStream保存kafka offset(JAVA实现)

最新推荐文章于 2024-12-06 09:11:25 发布

xueba207

最新推荐文章于 2024-12-06 09:11:25 发布

阅读量1.5w

点赞数 10

CC 4.0 BY-SA版权

分类专栏： Spark 文章标签： spark kafka offset streaming

本文链接：https://blog.youkuaiyun.com/xueba207/article/details/50381821

本文探讨了在使用Spark Streaming处理大量Kafka数据时，如何通过createDirectStream避免消息丢失。介绍了两种保存offset的方法：一是利用Spark的checkpoint机制，二是自定义实现将offset保存到Zookeeper。详细讲解了每种方法的流程和代码实现，特别是提供了JAVA版本的自定义offset保存代码示例。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

问题描述

最近使用spark streaming处理kafka的数据，业务数据量比较大，就使用了kafkaUtils的createDirectStream()方式，此方法直接从kafka的broker的分区中读取数据，跳过了zookeeper，并且没有receiver，是spark的task直接对接kakfa topic partition，能保证消息恰好一次语意，但是此种方式因为没有经过zk，topic的offset也就没有保存，当job重启后只能从最新的offset开始消费消息，造成重启过程中的消息丢失。

解决方案

一般，有两种方式可以先spark streaming 保存offset：spark checkpoint机制和程序中自己实现保存offset逻辑，下面分别介绍。

checkpoint机制

spark streaming job 可以通过checkpoint 的方式保存job执行断点，断点中有spark streaming context中的全部信息（包括有kakfa每个topic partition的offset）。checkpoint有两种方式，一个是checkpoint 数据和metadata，另一个只checkpoint metadata，一般情况只保存metadata即可，因此这里只介绍checkpoint metadata。