17、Structured Streaming 实用指南：从执行原理到数据读写

最新推荐文章于 2025-12-01 21:24:53 发布

反内卷战士508

最新推荐文章于 2025-12-01 21:24:53 发布

阅读量28

点赞数

CC 4.0 BY-SA版权

分类专栏：掌握Spark：从入门到实战文章标签： Structured Streaming Spark 流数据处理

本文链接：https://blog.youkuaiyun.com/nut55/article/details/152256622

掌握Spark：从入门到实战专栏收录该内容

28 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

Structured Streaming 实用指南：从执行原理到数据读写

1. 结构化流查询的执行原理

结构化流查询的执行循环适用于基于微批处理的触发模式（如 ProcessingTime 和 Once），但不适用于 Continuous 触发模式。以下是一个简单的代码示例：

# Python 示例
streamingQuery = counts.writeStream \
  .format("console") \
  .outputMode("complete") \
  .trigger(processingTime="1 second") \
  .option("checkpointLocation", checkpointDir) \
  .start()
streamingQuery.awaitTermination()

// Scala 示例
import org.apache.spark.sql.functions._
import org.apache.spark.sql.streaming._
val spark = SparkSession...
val lines = spark
  .readStream.format("socket")
  .option("host", "localhost")
  .option("port", 9999)
  .load()
val words = lines.select(split(col("value"), "\\s").as("word"))
val counts