14、流处理与批处理的融合及相关概念解析

流处理与批处理的融合及相关概念解析

在数据处理领域,流处理和批处理是两种重要的处理方式。下面我们将探讨批处理如何融入流/表理论,以及流与有界/无界数据的关系,同时深入分析在流和表的世界中“是什么”“在哪里”“何时”以及“如何”这四个关键问题。

批处理与流/表理论的契合

首先来看两个关键问题的答案:
1. 批处理如何融入流/表理论 :批处理与流/表理论的契合度很高,其基本模式如下:
- 表转换为流 :将表的全部内容读取出来,使其成为流。
- 流处理 :对流进行处理,生成新的流,直到遇到分组操作。
- 流转换为表 :分组操作会将流转换为表。
- 循环处理 :重复上述步骤,直到处理流程中的所有阶段都完成。
2. 流与有界/无界数据的关系 :从MapReduce的例子可以看出,流只是数据的动态形式,无论数据是有界的还是无界的。

从这个角度来看,流/表理论与有界数据的批处理并不矛盾,反而进一步支持了批处理和流处理本质上差异不大的观点,归根结底都是围绕着流和表展开的。

流和表世界中的四个关键问题
是什么:转换

转换操作告诉我们数据处理流程在计算什么,例如构建模型、计算总和、过滤垃圾邮件等。从流/表理论的角度来看,主要有两种类型的转换:
- 非分组操作 :这类操作(如Map和Reduce)接收一个

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值