PySpark结构化流的基础Spark Structured Streaming 增强流计算的能力

最新推荐文章于 2025-06-09 18:22:58 发布

知识大胖

最新推荐文章于 2025-06-09 18:22:58 发布

阅读量828

点赞数

CC 4.0 BY-SA版权

分类专栏：国产操作系统、数据库、中间件、GPU教程 Python源码大全 sql大全文章标签： 1024程序员节

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/iCloudEnd/article/details/127488712

Python源码大全同时被 3 个专栏收录

465 篇文章 ¥79.90 ¥99.00

订阅专栏

超级会员免费看

86 篇文章 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

国产操作系统、数据库、中间件、GPU教程

44 篇文章 ¥79.90 ¥99.00

订阅专栏

本文介绍了PySpark的结构化流（Spark Structured Streaming），这是一个基于Spark SQL Engine的流处理框架，适合熟悉DataFrame、Dataset和SQL的开发者。文章详细阐述了结构化流的四个关键组成部分：输入源（如Kafka、文件系统）、处理方式（包括转换和输出模式）、触发器（处理时间和一次性触发）以及输出接收器（如Kafka、文件、内存和控制台）。后续文章将通过示例进一步说明这些概念。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Spark Structured Streaming 是一个基于 Spark SQL Engine 构建的流框架。它利用现有的 API 框架来增强流计算的能力。

在这里插入图片描述
因此，如果您熟悉 Spark 上的 DataFrame、Dataset 和 SQL，那么这一点会很容易。结构化流框架可以假设为微批处理框架，它将数据连续附加到表的末尾。然而，有一个小小的转折。

为了开始并保持简单，我们可以将结构化流分成 4 个部分——什么、如何、何时和何地？如果你对所有 4 个都有答案，那么工作就完成了。

让我们一一了解所有4。

什么：简单地说你的输入源是什么？Spark 支持以下输入源：

流式输入源，例如 Kafka、Azure EventHub、Kinesis 等。
文件系统，如 HDFS、S3 等。
插座

How：简单的说你是如何处理数据的。它涉及转换（与批处理相同，但限制很少）和接收器的输出模式。Spark 支持以下输出模式：

追加：添加新记录
更新：更新更改的记录
完成：覆盖所有记录

并非所有输出接收器都支持所有输出方法。我们将在运行示例时讨论所有这些。

何时：基本上是指流管道的触发器。它定义了管道将如何触发。

处理时间：将等待触发前给定的时间
</

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

知识大胖 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。