10、结构化流处理:多数据源的使用与数据处理

结构化流处理:多数据源的使用与数据处理

1. 结构化流处理数据源概述

结构化流处理能够处理来自多种数据源的数据流,如Delta表、Azure Event Hubs等发布/订阅(pub/sub)系统。下面将详细介绍如何将这些数据源连接到流处理作业中。

2. 使用Delta表作为流数据源

可以使用Spark的 readStream writeStream 方法结合Delta Lake进行结构化流处理,重点在于解决小文件处理、批处理作业管理以及高效检测新文件等问题。

当Delta表作为数据流源时,对该表的所有查询将处理表中的信息以及自流启动以来到达的任何数据。以下是加载Delta表数据到DataFrame的示例代码:

# 通过路径加载
df = spark.readStream.format("delta").load("/mnt/delta/data_events")
# 通过表名加载
df = spark.readStream.format("delta").table('data_events')

Delta Lake的结构化流处理有以下特性:
- 可以通过设置 maxFilesPerTrigger 选项控制每次触发器激活时考虑的新文件的最大数量。
- 可以使用 maxBytesPerTrigger 选项设置每个微批处理中要处理的数据的速率限制。

如果尝试对作为源的Delta表

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值