Spark Streaming与Structured Streaming区别解析

最新推荐文章于 2025-11-23 21:51:25 发布

原创最新推荐文章于 2025-11-23 21:51:25 发布 · 604 阅读

23 ·

CC 4.0 BY-SA版权

文章标签：

#spark #大数据 #分布式

大数据专栏收录该内容

276 篇文章

订阅专栏

这是一个非常核心的大数据面试题。简单来说，Spark Streaming 是 Spark 生态系统中原有的、基于微批次（Micro-Batch）的流处理框架，而“另一种 Streaming”通常指的是其后推出的、基于连续处理（Continuous Processing）模型的 Structured Streaming。

下面我将从多个维度详细解释它们的区别。

核心摘要

特性维度	Spark Streaming (DStreams)	Structured Streaming
编程接口	低级 API：DStream（离散化流，Discretized Stream）	高级 API：DataFrame / Dataset
处理模型	微批次（Micro-Batch）	1. 微批次（默认） 2. 连续处理（实验性）
API 类型	过程式（如何做）	声明式（做什么）
时间语义	处理时间为主，事件时间支持较弱	原生支持事件时间（Event Time）、处理时间、注入时间
容错机制	基于 WAL（Write-Ahead Log）和 RDD 血统（Lineage）	基于 checkpoint 和 WAL 的端到端精确一次（Exactly-Once）语义
与批处理统一	代码类似，但 API 完全不同（RDD vs. DStream）	完全统一，同一套 DataFrame/Dataset API 用于流和批
性能与优化	需手动优化（如缓存、分区）	Catalyst 优化器和 Tungsten 执行引擎自动优化
使用状态	使用 `updateStateByKey` 或 `mapWithState`，较繁琐	内置 `mapGroupsWithState` 和 `flatMapGroupsWithState`，更简单强大

详细区别解析

1. 编程模型与 API

Spark Streaming (DStreams):
- 这是 Spark 最初的流处理解决方案，基于一种叫做 DStream 的抽象。
- DStream 本质上是一系列连续的 RDD（弹性分布式数据集）。它把实时数据流按时间间隔（例如 1 秒）切分成一个个小的 RDD，然后对这些 RDD 应用各种 RDD 转换操作（如 map, reduce, join）。
- 这是一种过程式的 API，你需要告诉程序“如何”一步一步地处理数据。
```
// 一个旧的 DStream 示例
val ssc = new StreamingContext(spark.sparkContext, Seconds(1))
val lines = ssc.socketTextStream("localhost", 9999)
val words = lines.flatMap(_.split(" "))
val wordCounts = words.map(x => (x, 1)).reduceByKey(_ + _)
wordCounts.print()
ssc.start()
ssc.awaitTermination()
```

Structured Streaming:

这是 Spark 2.0 之后引入的更高层次的流处理 API，构建在 Spark SQL 引擎之上。
它的核心抽象是 无界表（Unbounded Table）。它把数据流视为一张不断追加行的表。你的查询就像是定义在一个静态表上的标准批处理查询，Spark SQL 引擎会在后台持续地在新数据到达时更新结果表。
这是一种声明式的 API，你只需要声明你“想要”什么结果，而如何高效执行则由 Spark 的 Catalyst 优化器决定。

// 一个 Structured Streaming 示例
val spark = SparkSession.builder().appName("SSExample").getOrCreate()
import spark.implicits._

val lines = spark.readStream
  .format("socket")
  .option("host", "localhost")
  .option("port", 9999)
  .load()

val words = lines.as[String].flatMap(_.split(" "))
val wordCounts = words.groupBy("value").count()

val query = wordCounts.writeStream
  .outputMode("complete")
  .format("console")
  .start()

query.awaitTermination()

2. 处理模型（关键区别）

Spark Streaming (DStreams):
- 只有一种模型：微批次（Micro-Batch）。无论你是否喜欢，它都会将数据切成小批次进行处理。这带来了固有的延迟（通常在秒级别）。
Structured Streaming:
- 提供两种模型：
  1. 微批次（默认）：与 DStreams 理念类似，但由更高效的 Spark SQL 引擎执行。
  2. 连续处理（Continuous Processing，实验性）：这是真正的低延迟处理模式（毫秒级，可达 ~1ms）。它不再是启动周期性的任务，而是启动一系列长期运行的任务，持续不断地读取、处理并写入数据。这极大地降低了延迟，但代价是只能提供“至少一次（At-Least-Once）”的语义保证，且支持的算子比微批次模式少。

3. 时间语义与窗口操作

Spark Streaming：对事件时间（Event Time）（数据本身产生的时间）的支持非常弱且麻烦。它主要基于处理时间（Processing Time）（数据被 Spark 处理的时间）进行窗口操作，这容易因为数据延迟或处理速度波动导致计算结果不准确。
Structured Streaming：原生支持事件时间是其巨大优势。你可以轻松地基于事件时间定义窗口、处理延迟数据并设置水印（Watermark）来清理旧状态，从而得到更准确的计算结果。这对于真实业务场景至关重要。

4. 生态集成与一致性

Spark Streaming：流处理和批处理代码风格相似但 API 不统一。比如，批处理用 sparkContext.textFile(...)，流处理用 streamingContext.socketTextStream(...)。
Structured Streaming：实现了真正的流批一体。同一段数据处理逻辑，读取静态数据源就是批处理作业，读取流式数据源就是流处理作业，代码几乎无需改动。它与 Spark SQL、DataFrames、Datasets 的集成是天衣无缝的。

总结与选择建议

	Spark Streaming (DStreams)	Structured Streaming
现状	遗留系统（Legacy）	Spark 流处理的现在和未来
推荐度	不推荐新项目使用	强烈推荐所有新项目使用

为什么选择 Structured Streaming？
- 更简单的 API：写起来像批处理，易于理解和维护。
- 更好的性能：得益于 Spark SQL 的自动优化。
- 更强大的功能：尤其是对事件时间和端到端精确一次语义的支持。
- 流批一体：代码复用性极高，架构更简洁。
- 持续的更新和维护：Spark 社区的所有新特性（如连续处理模式）都只会加在 Structured Streaming 上。
什么情况下可能还会用到 DStreams？
- 维护非常老的 Spark 项目（比如基于 Spark 1.x 的）。
- 需要极低级别的控制，而 Structured Streaming 的连续处理模式又无法满足某些特定需求（这种情况非常罕见）。