sparkStream基于kafka源连接

最新推荐文章于 2025-04-24 09:08:04 发布

原创最新推荐文章于 2025-04-24 09:08:04 发布 · 616 阅读

0 ·

CC 4.0 BY-SA版权

spark 专栏收录该内容

80 篇文章

订阅专栏

本文介绍了Spark Streaming中基于Direct方式的高效数据处理方法。这种方式通过周期性查询Kafka获取最新offset，实现数据批处理范围定义。它具备简化并行读取、高性能及一次且仅一次的事务处理机制等优点。

基于Direct方式

这种方式周期性地查询Kafka，来获得每个topic+partition的最新的offset,从而定义每个batch的offset的范围。

这种方式有以下优点：

1. 简化并行读取：如果要读取多个partition,不需要创建多个DStream，然后对他们进行union操作，spark会创建和kafka partition一样多的RDD partition，并且会并行的从Kafka中读取数据，所以在Kafka partition和RDD partition之间，有一个一对一的映射关系。

2. 高性能：如果要保证零数据丢失，在基于receiver的方式中，需要开启WAL机制，这种方式其实效率地下，因为数据实际上被复制了倆份，kafka自己本身就有高可靠的机制，会对数据复制一份，而这里又会复制一份到WAL,而基于direct方式，不依赖Receiver,不需要开启WAL机制，只要Kafka中做了数据的复制，那么就可以通过kafka的副本进行恢复

3. 一次且仅一次的事务机制

基于receiver的方式，是使用Kafka的高阶API来在Zookeeper中保存消费过的offset的。这是消费Kafka的传统方式，这种方式配合着WAL机制可以保证数据零丢失的高可靠性，但是却无法保证数据被处理一次且仅一次，可能会处理俩次，因为Spark和Zookeeper可能是不同步的

基于direct的方式，使用kafka的简单api，Spark Streaming自己就负者追踪消费的offset，并保存在checkpoint中，saprk自己一定是同步的，因此可以保证数据消费仅一次