【Spark编程基础】第7章 Structured Streaming

最新推荐文章于 2025-06-19 09:29:50 发布

小手の冰凉

最新推荐文章于 2025-06-19 09:29:50 发布

阅读量2.6k

点赞数 2

CC 4.0 BY-SA版权

分类专栏：【数据科学与大数据技术】文章标签： spark 大数据 hadoop

本文链接：https://blog.youkuaiyun.com/Lenhart001/article/details/130718056

系列文章目录

（1）微批处理

（2）持续处理

Structured Streaming处理的数据跟Spark Streaming一样，也是源源不断的数据流，区别在于，Spark Streaming采用的数据抽象是DStream（本质上就是一系列RDD），而Structured Streaming采用的数据抽象是DataFrame。
Structured Streaming可以使用Spark SQL的DataFrame/Dataset来处理数据流。虽然Spark SQL也是采用DataFrame作为数据抽象，但是，Spark SQL只能处理静态的数据，而Structured Streaming可以处理结构化的数据流。这样，Structured Streaming就将Spark SQL和Spark Streaming二者的特性结合了起来。
Structured Streaming可以对DataFrame/Dataset应用前面章节提到的各种操作，包括select、where、groupBy、map、filter、flatMap等。
Spark Streaming只能实现秒级的实时响应，而Structured Streaming由于采用了全新的设计方式，采用微批处理模型时可以实现100毫秒级别的实时响应，采用持续处理模型时可以支持毫秒级的实时响应。