介绍目前还在推进的批流融合系统-SparkV2/Beam
SparkV2
回顾
Feature
在第一代的Spark Streaming系统中,其主要特点为:
- 以批处理核心,使用micro-batch模型将流计算转换为批处理
- 流计算和批处理API可以互用
- DStream(特殊的RDD)
- RDD
Spark Streaming局限性
Spark streaming难以处理的需求
- Event-time
- Late Data
- 流数据的三个特征
- 乱序
- 延迟
- 无界
- 流数据的三个特征
- Session windows
- 比较难处理,与batch框架相矛盾
Structured Streaming思路
- 类似Flink,流向表转换
- 流与表的操作统一到DataSet/DataFrameAPI
- 底层引擎依然是批处理,继续使用micro-batch的模型
- Continuous query模型还在开发中

本文介绍了批流融合系统的发展,重点讨论了SparkV2的Structured Streaming和Beam模型。SparkV2通过Structured Streaming将流计算转换为批处理的micro-batch模型,处理Event time和Late Data挑战。而Beam则强调统一的API,采用WWWH模型,适用于不同的批流处理系统。
最低0.47元/天 解锁文章
3807

被折叠的 条评论
为什么被折叠?



