
flink
cache007
这个作者很懒,什么都没留下…
展开
-
深入理解Apache Flink核心技术
Apache Flink(下简称Flink)项目是大数据处理领域最近冉冉升起的一颗新星,其不同于其他大数据项目的诸多特性吸引了越来越多人的关注。本文将深入分析Flink的一些关键技术与特性,希望能够帮助读者对Flink有更加深入的了解,对其他大数据系统开发者也能有所裨益。本文假设读者已对MapReduce、Spark及Storm等大数据处理框架有所了解,同时熟悉流处理与批处理的基本概念。F转载 2016-04-28 15:11:47 · 2254 阅读 · 0 评论 -
Apache Flink流作业提交流程分析
提交流程调用的关键方法链用户编写的程序逻辑需要提交给Flink才能得到执行。本文来探讨一下客户程序如何提交给Flink。鉴于用户将自己利用Flink的API编写的逻辑打成相应的应用程序包(比如Jar)然后提交到一个目标Flink集群上去运行是比较主流的使用场景,因此我们的分析也基于这一场景进行。Flink的API针对不同的执行环境有不同的Environment对象,这里我们主转载 2016-07-29 16:40:48 · 791 阅读 · 0 评论 -
Flink 原理与实现:Window 机制
Flink 认为 Batch 是 Streaming 的一个特例,所以 Flink 底层引擎是一个流式引擎,在上面实现了流处理和批处理。而窗口(window)就是从 Streaming 到 Batch 的一个桥梁。Flink 提供了非常完善的窗口机制,这是我认为的 Flink 最大的亮点之一(其他的亮点包括消息乱序处理,和 checkpoint 机制)。本文我们将介绍流式处理中的窗口概念,介绍 F转载 2016-07-19 16:19:18 · 1080 阅读 · 1 评论 -
Flink 原理与实现:如何生成 StreamGraph
继上文Flink 原理与实现:架构和拓扑概览中介绍了Flink的四层执行图模型,本文将主要介绍 Flink 是如何根据用户用Stream API编写的程序,构造出一个代表拓扑结构的StreamGraph的。注:本文比较偏源码分析,所有代码都是基于 flink-1.0.x 版本,建议在阅读本文前先对Stream API有个了解,详见官方文档。StreamGraph 相关的代码主要转载 2016-07-29 16:17:55 · 1049 阅读 · 0 评论 -
Flink 原理与实现:架构和拓扑概览
要了解一个系统,一般都是从架构开始。我们关心的问题是:系统部署成功后各个节点都启动了哪些服务,各个服务之间又是怎么交互和协调的。下方是 Flink 集群启动后架构图。当 Flink 集群启动后,首先会启动一个 JobManger 和一个或多个的 TaskManager。由 Client 提交任务给 JobManager,JobManager 再调度任务到各个 TaskManager转载 2016-07-29 15:03:13 · 3162 阅读 · 0 评论 -
Apache Flink:详细入门
Apache Flink是一个面向分布式数据流处理和批量数据处理的开源计算平台,它能够基于同一个Flink运行时(Flink Runtime),提供支持流处理和批处理两种类型应用的功能。现有的开源计算方案,会把流处理和批处理作为两种不同的应用类型,因为他们它们所提供的SLA是完全不相同的:流处理一般需要支持低延迟、Exactly-once保证,而批处理需要支持高吞吐、高效处理,所以在实现的时候通常转载 2016-07-18 14:59:34 · 5537 阅读 · 1 评论 -
Flink中的一些核心概念
程序和数据流Flink程序的基本构建块是streams和transformations(注意,DataSet在内部也是一个stream)。一个stream可以看成一个中间结果,而一个transformations是以一个或多个stream作为输入的某种operation,该operation利用这些stream进行计算从而产生一个或多个result stream。在运行时,Fl转载 2016-06-18 19:33:04 · 775 阅读 · 0 评论 -
Flink 原理与实现:Window 机制
Flink 认为 Batch 是 Streaming 的一个特例,所以 Flink 底层引擎是一个流式引擎,在上面实现了流处理和批处理。而窗口(window)就是从 Streaming 到 Batch 的一个桥梁。Flink 提供了非常完善的窗口机制,这是我认为的 Flink 最大的亮点之一(其他的亮点包括消息乱序处理,和 checkpoint 机制)。本文我们将介绍流式处理中的窗口概念,介绍 F转载 2016-06-18 19:30:33 · 8675 阅读 · 1 评论 -
新一代大数据处理引擎 Apache Flink
大数据计算引擎的发展这几年大数据的飞速发展,出现了很多热门的开源社区,其中著名的有 Hadoop、Storm,以及后来的 Spark,他们都有着各自专注的应用场景。Spark 掀开了内存计算的先河,也以内存为赌注,赢得了内存计算的飞速发展。Spark 的火热或多或少的掩盖了其他分布式计算的系统身影。就像 Flink,也就在这个时候默默的发展着。在国外一些社区,有很多人将大数据的计算转载 2016-05-12 17:27:41 · 3820 阅读 · 1 评论 -
Flink中的一些核心概念
在源码解读前我们有必要先了解一下Flink的一些基本的但却很关键的概念。这有助于帮助我们理解整个架构。在翻译文档的同时,对于有争议的或者不是非常适合用中文表达的地方,我尽量保留原始英文单词。程序和数据流Flink程序的基本构建块是streams和transformations(注意,DataSet在内部也是一个stream)。一个stream可以看成一个中间结果,而一个tran转载 2016-05-12 17:25:36 · 3340 阅读 · 0 评论 -
Flink on Yarn部署
环境信息:Hadoop版本:2.6.0Flink版本:1.1.2 快速部署Flink on Yarn环境:比如启动一个有4个TaskManager(每个节点都有4GB堆内存)的Yarn会话:1. 下载Flink的软件包,如flink-1.1.2-bin-hadoop26-scala_2.11.tgz(因为我的Hadoop集群版本为2.6.0转载 2016-12-21 10:47:00 · 1237 阅读 · 0 评论