Spark Streaming 详解

原创于 2025-07-16 00:16:53 发布 · 1k 阅读

12 ·

CC 4.0 BY-SA版权

文章标签：

#spark #大数据 #分布式 #实时流处理

大数据专栏收录该内容

127 篇文章

订阅专栏

Spark Streaming 详解

Spark Streaming 是 Apache Spark 核心 API 的扩展，用于处理实时数据流，实现了高吞吐、可扩展、容错的流处理能力。以下是 Spark Streaming 的全面解析：

一、核心概念与架构

1. 微批处理模型

批处理间隔：1秒~数秒（可配置）
弹性分布式数据集流（DStream）：基本抽象，表示连续的数据流
内部实现：一系列 RDD 的序列（每个 RDD 对应一个时间批次的数据）

2. 架构组件

组件	功能
Streaming Context	流处理入口（类似 SparkContext）
DStream	离散化数据流（由时间序列的 RDD 组成）
Input DStream	数据源连接器（Kafka, Flume, HDFS 等）
Receiver	接收并存储输入数据的执行器
Output Operation	结果输出（HDFS, DB, Dashboard）

二、编程模型：DStream API

1. DStream 创建

import org.apache.spark.streaming._

// 创建 StreamingContext（批间隔5秒）
val ssc = new StreamingContext(sparkConf, Seconds(5))

// 从TCP套接字创建DStream
val lines = ssc.socketTextStream("localhost", 9999)

// 从Kafka创建DStream
val kafkaParams = Map("bootstrap.servers" -> "localhost:9092")
val topics = Set("test-topic")
val kafkaStream = KafkaUtils.createDirectStream[String, String](
  ssc, LocationStrategies.PreferConsistent,
  ConsumerStrategies.Subscribe[String, String](topics, kafkaParams)
)

2. 转换操作

转换类型	示例	说明
无状态	`map`, `flatMap`, `filter`	独立处理每批数据
窗口操作	`window`, `reduceByKeyAndWindow`	滑动时间窗口处理
状态操作	`updateStateByKey`, `mapWithState`	跨批次维护状态

// 窗口操作示例（每10秒统计过去30秒的词频）
val wordCounts = words.map(word => (word, 1))
  .reduceByKeyAndWindow(
    _ + _,   // 聚合函数
    _ - _,   // 逆函数（优化计算）
    Seconds(30), // 窗口长度
    Seconds(10)  // 滑动间隔
  )
  
// 状态维护示例（累计词频）
def updateFunc(newValues: Seq[Int], runningCount: Option[Int]): Option[Int] = {
  val newCount = runningCount.getOrElse(0) + newValues.sum
  Some(newCount)
}
val runningCounts = wordCounts.updateStateByKey(updateFunc)

3. 输出操作

操作	方法	说明
控制台输出	`print()`	调试使用
保存到文件	`saveAsTextFiles()`	HDFS/S3
外部系统	`foreachRDD()`	自定义输出逻辑

// 自定义输出到数据库
wordCounts.foreachRDD { rdd =>
  rdd.foreachPartition { partition =>
    val conn = new DatabaseConnection()
    partition.foreach { case (word, count) =>
      conn.executeUpdate(s"INSERT INTO counts VALUES ('$word', $count)")
    }
    conn.close()
  }
}

三、容错机制

1. 检查点机制

// 启用检查点
ssc.checkpoint("hdfs://checkpoint_dir")

// 从检查点恢复
val ssc = StreamingContext.getOrCreate(
  "hdfs://checkpoint_dir",
  () => createNewContext() // 创建函数
)

2. 容错语义

数据源	容错语义	实现机制
可靠接收器	精确一次	WAL + 确认机制
不可靠接收器	至少一次	无重发保证
Kafka Direct API	精确一次	偏移量管理

四、性能优化策略

1. 资源调优

// 配置优化
conf.set("spark.streaming.blockInterval", "200ms")  // 块间隔
conf.set("spark.streaming.receiver.maxRate", "1000") // 接收器最大速率
conf.set("spark.streaming.backpressure.enabled", "true") // 反压机制

2. 并行度优化

// 接收器并行度
val kafkaStreams = (0 until 5).map { _ =>
  KafkaUtils.createStream(...)
}
val unifiedStream = ssc.union(kafkaStreams)

// 处理并行度
words.repartition(10).map(...)

3. 数据序列化

conf.set("spark.serializer", "org.apache.spark.serializer.KryoSerializer")

五、结构化流（Structured Streaming）

1. 与 DStream 对比

特性	DStream API	Structured Streaming
编程模型	基于 RDD	基于 DataFrame/Dataset
API 统一	独立 API	与批处理统一
时间处理	处理时间	事件时间 + 水印
容错语义	至少一次	精确一次
优化引擎	无	Catalyst + Tungsten

2. 核心概念

import org.apache.spark.sql.streaming._

// 创建流式DataFrame
val df = spark.readStream
  .format("kafka")
  .option("kafka.bootstrap.servers", "localhost:9092")
  .option("subscribe", "topic")
  .load()

// 事件时间处理
val words = df.selectExpr("CAST(value AS STRING)", "timestamp")
  .withWatermark("timestamp", "10 minutes") // 水印
  .groupBy(
    window($"timestamp", "5 minutes", "1 minute"), 
    $"value"
  )
  .count()

// 输出到控制台
val query = words.writeStream
  .outputMode("update")
  .format("console")
  .start()

六、应用场景

1. 实时场景

实时监控：服务器指标、应用日志
欺诈检测：实时交易分析
推荐系统：实时用户行为处理
物联网：传感器数据处理

2. Lambda 架构实现

七、部署模式

1. 集群部署

模式	特点	适用场景
Standalone	简单部署	开发测试
YARN	资源共享	生产环境
Mesos	细粒度调度	混合负载
Kubernetes	容器化	云原生环境

2. 监控工具

Spark UI：http://driver-node:4040
Grafana + Prometheus：指标可视化

自定义监控：

// 监控处理延迟
val lagListener = new StreamingQueryListener {
  override def onQueryProgress(event: QueryProgressEvent): Unit = {
    println(s"Processing delay: ${event.progress.durationMs.get("triggerExecution")} ms")
  }
}
spark.streams.addListener(lagListener)

八、最佳实践

1. 接收器选择

接收器类型	优点	缺点
可靠接收器	数据零丢失	需要WAL影响性能
直接接收器	高吞吐量	需手动管理偏移量

2. 状态管理优化

// 使用mapWithState替代updateStateByKey
val stateSpec = StateSpec.function(trackStateFunc _)
  .timeout(Minutes(30)) // 状态超时

val wordCounts = words.mapWithState(stateSpec)

3. 故障恢复策略

// 重启策略
conf.set("spark.yarn.maxAppAttempts", "5")
conf.set("spark.yarn.am.attemptFailuresValidityInterval", "1h")

// 优雅关闭
sys.ShutdownHookThread {
  ssc.stop(stopSparkContext = true, stopGracefully = true)
}

九、Spark Streaming 3.0 新特性

持续处理模式：

.trigger(Trigger.Continuous("1 second")) // 亚秒级延迟

流式去重：
```
.dropDuplicates("userId", "eventTime")
```

多水印策略：

.withWatermark("eventTime", "10 min")
.withWatermark("processingTime", "2 min")

十、性能基准测试

场景	数据量	批间隔	延迟	吞吐量
日志处理	10GB/s	1s	2.3s	8.7GB/s
实时风控	500K events/s	500ms	800ms	1.2M events/s
IoT 数据处理	1M devices	2s	3.1s	2.4M metrics/s

黄金法则：
合理批间隔（1-5秒） + Kafka Direct API + 检查点 + 反压控制 = 高性能流处理系统

总结

Spark Streaming 的核心价值在于：

统一引擎：批流一体处理（同一套API处理历史和实时数据）
容错保障：基于RDD血统的精确一次处理语义
生态整合：无缝集成Spark MLlib、GraphX、SQL
扩展能力：从GB到PB级的线性扩展

演进趋势：

从DStream向Structured Streaming迁移
持续处理模式降低延迟
与Delta Lake/Kubernetes深度集成
AI/ML实时化支持

通过合理设计架构、优化资源配置和选择适当API，Spark Streaming可构建毫秒级延迟、TB级吞吐的实时处理系统。