11、结构化流处理:从基础到实践

结构化流处理:从基础到实践

1. 连续流使用不同数据源

在处理数据流时,我们可以使用 writeStream foreach 方法调用对象。示例代码如下:

query = streaming_df.writeStream.foreach(ForeachWriter()).start()

通过这种方式,我们能轻松定义一个类,使用 Structured Streaming 处理接收到的数据流,并将处理后的数据写入外部位置作为数据接收器。

2. 从查询失败中恢复

查询失败可能由多种原因导致,如输入数据模式更改、计算中使用的表发生变化、文件缺失等。为保证数据处理的健壮性, Structured Streaming 对输入源和输出接收器有以下要求:
|要求|详情|
|----|----|
|输入源可重放|若作业失败,可重新读取近期数据|
|输出接收器支持事务更新|更新操作是原子性的,且可回滚|

Structured Streaming 提供了检查点功能,可用于流式查询。启用检查点后,流可在失败后快速恢复,从断点处继续执行,同时保证数据一致性。建议配置启用查询检查点,并设置 Databricks Jobs 在失败后自动重启查询。

启用检查点的方法是在写入数据框时设置 checkpointLocat

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值