前言
为了让Spark Streaming消费kafka的数据不丢数据,可以创建Kafka Direct DStream,由Spark Streaming自己管理offset,并不是存到zookeeper。启用Spark Streaming的 checkpoints是存储偏移量的最简单方法,因为它可以在Spark的框架内轻松获得。 checkpoints将应用程序的状态保存到HDFS,以便在故障时可以恢复。如果发生故障,Spark Streaming应用程序可以从checkpoints偏移范围读取消息。
但是,Spark Streaming checkpoints在应用程序挂掉或者重启无法恢复,因此不是非常可靠,特别是如果您将此机制用于关键生产应用程序,另外,基于zookeeper的offset可视化工具将无法使用。我们不建议通过Spark checkpoints来管理偏移量。因此本文将手动存储offset到zookeeper,完全自我掌控offset。
从ZK获取offset
创建ZKClient,API有好几个,最后用带序列化参数的,不然保存offset的时候容易出现乱码。

查看该groupId在该topic下是否有消费记录,如果有,肯定在对应目录下会有分区数,children大于0则有记录。

在有记录的情况下,去拿具体的offset

本文探讨了如何在Spark Streaming中管理Kafka偏移量,避免数据丢失。虽然Spark Streaming提供checkpoints功能,但可靠性有限。文章建议手动将offset存储到Zookeeper,以实现更精细的控制。内容包括从ZK获取offset的步骤,创建DStream的注意事项,以及处理RDD和保存Offset的过程。
最低0.47元/天 解锁文章
207

被折叠的 条评论
为什么被折叠?



