Spark Streaming 架构与抽象

最新推荐文章于 2025-04-22 11:12:28 发布

程序员学习圈

最新推荐文章于 2025-04-22 11:12:28 发布

阅读量471

点赞数

分类专栏： # Spark 文章标签： scala spark

本文链接：https://blog.youkuaiyun.com/Luomingkui1109/article/details/86297365

版权

Spark 专栏收录该内容

30 篇文章

订阅专栏

本文深入探讨了SparkStreaming的微批次架构，介绍其如何将流式计算转换为连续的小规模批处理，以及离散化流（DStream）的概念。通过详细解释数据处理流程和容错机制，为读者提供了对SparkStreaming工作原理的全面理解。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Spark Streaming使用“微批次”的架构，把流式计算当作一系列连续的小规模批处理来对待。Spark Streaming从各种输入源中读取数据，并把数据分组为小的批次。新的批次按均匀的时间间隔创建出来。在每个时间区间开始的时候，一个新的批次就创建出来，在该区间内收到的数据都会被添加到这个批次中。在时间区间结束时，批次停止增长。时间区间的大小是由批次间隔这个参数决定的。批次间隔一般设在500毫秒到几秒之间，由应用开发者配置。每个输入批次都形成一个RDD，以 Spark 作业的方式处理并生成其他的 RDD。处理的结果可以以批处理的方式传给外部系统。高层次的架构如图

Spark Streaming的编程抽象是离散化流，也就是DStream。它是一个 RDD 序列，每个RDD代表数据流中一个时间片内的数据。

Spark Streaming在Spark的驱动器程序—工作节点的结构的执行过程如下图所示。Spark Streaming为每个输入源启动对应的接收器。接收器以任务的形式运行在应用的执行器进程中，从输入源收集数据并保存为 RDD。它们收集到输入数据后会把数据复制到另一个执行器进程来保障容错性(默认行为)。数据保存在执行器进程的内存中，和缓存 RDD 的方式一样。驱动器程序中的 StreamingContext 会周期性地运行 Spark 作业来处理这些数据，把数据与之前时间区间中的 RDD 进行整合。