流处理与批处理的融合及相关概念解析
在数据处理领域,流处理和批处理是两种重要的处理方式。下面我们将探讨批处理如何融入流/表理论,以及流与有界/无界数据的关系,同时深入分析在流和表的世界中“是什么”“在哪里”“何时”以及“如何”这四个关键问题。
批处理与流/表理论的契合
首先来看两个关键问题的答案:
1. 批处理如何融入流/表理论 :批处理与流/表理论的契合度很高,其基本模式如下:
- 表转换为流 :将表的全部内容读取出来,使其成为流。
- 流处理 :对流进行处理,生成新的流,直到遇到分组操作。
- 流转换为表 :分组操作会将流转换为表。
- 循环处理 :重复上述步骤,直到处理流程中的所有阶段都完成。
2. 流与有界/无界数据的关系 :从MapReduce的例子可以看出,流只是数据的动态形式,无论数据是有界的还是无界的。
从这个角度来看,流/表理论与有界数据的批处理并不矛盾,反而进一步支持了批处理和流处理本质上差异不大的观点,归根结底都是围绕着流和表展开的。
流和表世界中的四个关键问题
是什么:转换
转换操作告诉我们数据处理流程在计算什么,例如构建模型、计算总和、过滤垃圾邮件等。从流/表理论的角度来看,主要有两种类型的转换:
- 非分组操作 :这类操作(如Map和Reduce)接收一个
超级会员免费看
订阅专栏 解锁全文
1921

被折叠的 条评论
为什么被折叠?



