
ApacheBeam
文章平均质量分 93
列国周游
这个作者很懒,什么都没留下…
展开
-
Apache Beam简介
Apache Beam的前世今生 Apache Beam前身是Google Dataflow SDK,DataFlow是谷歌的提供大数据计算平台。在DataFlow之前,谷歌的批处理和流处理(流计算,实时处理)使用了不同系统,流处理有MillWheel、FlumeJava等,批处理有MapRedude,不同的平台使用了不同的Api,无疑提升了开发的难度,所以DataFlow横空出世,提出了原创 2017-09-20 23:46:26 · 6789 阅读 · 0 评论 -
在大数据场景下借鉴Splunk SPL的提供通用的数据分析手段
Splunk是什么Splunk 是机器数据的引擎。使用 Splunk 可收集、索引和利用所有应用程序、服务器和设备生成的快速移动型计算机数据 。 使用 Splunking 处理计算机数据,可让您在几分钟内解决问题和调查安全事件。监视端到端基础结构,避免服务性能降低或中断。以较低成本满足合规性要求。关联并分析跨越多个系统的复杂事件。Splunk SPL搜索处理语言SPL是Splunk Search ...原创 2018-06-10 15:18:10 · 3263 阅读 · 0 评论 -
Apache Beam核心—触发器规约
概述本文公式化的描述了Apache Beam中触发器的语义,然后推导出在实现触发器时的限制。 目标是为Beam Runner开发者和高级的用户提供参考。 动机大数据中批处理的输出结果是最终的结果,处理时间是在计算过程中的临时使用的。相比之下,流处理更关注在最终结果出来之前的中间结果。可能的方式是对输入数据进行窗口化切分,当窗口数据被认定是已经全部到达的时候,对每一个窗口产生输出,计翻译 2017-11-25 19:30:57 · 781 阅读 · 0 评论 -
Apache Beam适时有状态计算
Timely (and Stateful) Processing with Apache Beam。在先前的Apache Beam中的有状态计算中,介绍了Apache Beam中有状态计算的基础知识,重点介绍了对每个元素的处理中添加的状态特性。所谓的适时处理,是有状态计算的补充,是通过设置定时器来,在将来某个时间点上的(有状态的)进行回调。翻译 2017-09-22 15:50:36 · 1568 阅读 · 0 评论 -
Apache Beam Fn API如何接收和发送数据
简介Overviews在Apache Beam Fn API 总体介绍中阐述了总体视角,列出了一系列相关的文档。本文中描述了在处理Bundle时,Beam Runner和Beam SDK Harness之间使用Fn API发送和接收数据的模型。发送和接受数据 要求 高层视图 逻辑流Logical Stream 编码和解码已知类型 编码和解码未知类型 应原创 2017-10-15 17:47:36 · 977 阅读 · 0 评论 -
Apache Beam Fn API 处理Bundle
概述Overview在Apache Beam Fn API 总体介绍中阐述了总体视角,列出了一系列相关的文档。本文中描述了Beam Runner和Beam SDK Harness交互的细节,使用Fn API来处理Bundle(一组乱序的数据)处理Bundle 需求Requirements 高层视角的处理过程 注册UDF用户自定义函数 设计和实现考虑 实现要求原创 2017-10-15 16:02:06 · 859 阅读 · 0 评论 -
Apache Beam Fn API 总体介绍
Apache Beam技术愿景中,希望可以使用任意语言Beam SDK编写Beam Pipeline,然后可以运行在任何Runner中(每个Runner对应一个底层的大数据引擎,例如Flink Runner、Spark Runner)的能力,Apache Beam理论上可以视为一个VM虚拟机(想象一下Java的JVM,Scala、Groovy、Coljure等多种语言都可以在JVM中执行,可以运行原创 2017-10-15 15:17:08 · 1631 阅读 · 0 评论 -
Apache Beam核心--延迟和窗格设计
翻译自:谷歌Apache Beam项目Leader Kenneth Knowles以及Mark Shields。 本文中定义了Apache Beam编程模型中的延迟和数据丢弃,以及在Pipeline中如何传播。目的是为Runner开发者提供参考。目录摘要:入门 定义公式 Watermarks 定义和标记延迟 要求 不变性 窗格标签 对输入原创 2017-10-12 17:10:22 · 1544 阅读 · 0 评论 -
Apache Beam中的有状态计算
Beam帮助我们处理流式、乱序、大规模的数据,并且提供了高度的抽象机制Pipeline,统一了流式和批量数据处理。 从功能上流处理可以分为无状态(stateless)的和有状态(stateful)两种。在流处理的框架里引入状态管理大大提升了系统的表达能力,让用户能够很方便地实现复杂的处理逻辑,是流处理在功能上的一个飞跃。以下提到State或者状态是相同的概念。 有状态计算是Apa翻译 2017-09-22 14:04:11 · 2333 阅读 · 0 评论 -
Apache Beam编程指南
Apache Beam 开发指南,详细的介绍Apache的特性极其用法,并附有代码示例。翻译 2017-09-21 18:05:18 · 6750 阅读 · 0 评论 -
精通Apache Flink必读系列文章
Flink是最接近于谷歌Dataflow大数据分析平台的设计的开源分布式计算引擎,其核心设计理念与Spark有很大的不同。从设计出发点,Flink是一个流计算处理计算引擎,把批处理视为无限流计算的一种特例,Spark是批处理计算引擎,把流处理视为迷你批处理,因为设计上的差异,导致在对处理时延要求高的场景中,Flink更加合适。从生态上来说,二者都有SQL、机器学习、图计算等基本的组件,但是...原创 2018-08-17 11:38:25 · 11311 阅读 · 1 评论