Spark Streaming管理Kafka偏移量

最新推荐文章于 2022-10-12 22:42:41 发布

原创

最新推荐文章于 2022-10-12 22:42:41 发布 · 2.1k 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#spark #spark-streaming #kafka

本文探讨了如何在Spark Streaming中管理Kafka偏移量，避免数据丢失。虽然Spark Streaming提供checkpoints功能，但可靠性有限。文章建议手动将offset存储到Zookeeper，以实现更精细的控制。内容包括从ZK获取offset的步骤，创建DStream的注意事项，以及处理RDD和保存Offset的过程。

前言

为了让Spark Streaming消费kafka的数据不丢数据，可以创建Kafka Direct DStream，由Spark Streaming自己管理offset，并不是存到zookeeper。启用Spark Streaming的 checkpoints是存储偏移量的最简单方法，因为它可以在Spark的框架内轻松获得。 checkpoints将应用程序的状态保存到HDFS，以便在故障时可以恢复。如果发生故障，Spark Streaming应用程序可以从checkpoints偏移范围读取消息。

但是，Spark Streaming checkpoints在应用程序挂掉或者重启无法恢复，因此不是非常可靠，特别是如果您将此机制用于关键生产应用程序，另外，基于zookeeper的offset可视化工具将无法使用。我们不建议通过Spark checkpoints来管理偏移量。因此本文将手动存储offset到zookeeper，完全自我掌控offset。