Spark Streaming Receiver学习

最新推荐文章于 2025-01-04 22:40:09 发布

翻译最新推荐文章于 2025-01-04 22:40:09 发布 · 427 阅读

文章标签：

#SparkStreaming #Kafka

Spark 专栏收录该内容

5 篇文章

订阅专栏

本文深入解析了Spark Streaming中Receiver的工作原理，包括如何监听端口、处理数据流和与BlockManager交互的过程。同时对比了Receiver-based与KafkaReceiver-based在数据处理和数据丢失预防上的差异，特别强调了KafkaReceiver-based能够提供Exactly-Once语义的优势。

Receiver工作机制

以org.apache.spark.streaming.dstream.SocketReceiver为例。

一个数据流有一个receiver，在executor上启动。

Receiver监听端口，拉取数据，调用ReceiverSupervisor和BlockGenerator将数据加入BlockGenerator的缓存。在加入缓存前，调用限流器(RateLimiter)，以阻塞当前线程，直到限流完成。这里使用GuavaRateLimiter。Receiver和ReceiverSupervisor是包含关系；SocketReceiver不支持WriteAheadLog.

BlockGenerator的守护线程定时(spark.streaming.blockInterval) 将缓存数据加入data block并发送到blockManager，并将blockId，数据条数等通过RPC告知Driver。

批次时间到，按照Data Locality原则优先在含有数据的executor上执行开始数据处理。