批流融合系统-SparkV2/Beam

本文介绍了批流融合系统的发展,重点讨论了SparkV2的Structured Streaming和Beam模型。SparkV2通过Structured Streaming将流计算转换为批处理的micro-batch模型,处理Event time和Late Data挑战。而Beam则强调统一的API,采用WWWH模型,适用于不同的批流处理系统。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

介绍目前还在推进的批流融合系统-SparkV2/Beam

SparkV2

回顾

Feature

在第一代的Spark Streaming系统中,其主要特点为:

  • 以批处理核心,使用micro-batch模型将流计算转换为批处理
  • 流计算和批处理API可以互用
    • DStream(特殊的RDD)
    • RDD

Spark Streaming局限性

Spark streaming难以处理的需求

  • Event-time
  • Late Data
    • 流数据的三个特征
      • 乱序
      • 延迟
      • 无界
  • Session windows
    • 比较难处理,与batch框架相矛盾

Structured Streaming思路

  • 类似Flink,流向表转换
  • 流与表的操作统一到DataSet/DataFrameAPI
  • 底层引擎依然是批处理,继续使用micro-batch的模型
    • Continuous query模型还在开发中

处理模型

Unbounde

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值