数据处理系统的发展与创新
在数据处理技术的发展历程中,众多系统不断涌现,各自为该领域带来了独特的贡献。下面将为大家介绍几个具有代表性的系统及其关键特性。
云数据流(Cloud Dataflow)
云数据流是谷歌推出的一款基于云的全托管数据处理服务,于2015年8月向全球发布。它整合了谷歌在构建MapReduce、Flume和MillWheel等系统时积累的十多年经验,旨在为用户提供无服务器的云体验。
云数据流的核心贡献在于其统一的批处理和流处理编程模型。该模型将转换、窗口化、水印、触发器和累积等操作融为一体,以一种统一的方式处理数据。其背后的关键理念是,批处理和流处理本质上的差异并不大,它们都是流和表主题的细微变体。主要区别在于将表逐步触发为流的能力,其他方面在概念上是相同的。通过利用这两种方法的共性,云数据流提供了一种几乎无缝的体验,适用于批处理和流处理两个领域,这大大提高了流处理的可访问性。
为了使该模型更具通用性,开发团队还考虑了谷歌多年来遇到的各种用例,重点关注以下几个方面:
1. 非对齐的事件时间窗口 :如会话窗口,能够简洁地表达强大的分析结构,并应用于乱序数据。
2. 自定义窗口支持 :因为一种(甚至三四种)窗口大小很少能满足所有需求。
3. 灵活的触发和累积模式 :可以根据特定用例的正确性、延迟和成本需求,调整数据在管道中的流动方式。
4. 使用水印判断输入完整性 :这对于异常下降检测等依赖数据缺失进行分析的用例至关重要。
5.
超级会员免费看
订阅专栏 解锁全文
6万+

被折叠的 条评论
为什么被折叠?



