
我要拥抱FLINK
本专栏主要记录我学习FLINK的过程,其内容全部来自官方文档或其它官方可信资料,不包括个人博客,论坛等.
橘子洲头无桔子
拿不起的辞典
展开
-
Apache Flink 入门 (第四篇) (DataStream API 示例)
1. Flink DataStream API 概览https://ci.apache.org/projects/flink/flink-docs-release-1.10/zh/dev/datastream_api.html我们先是从一个简单的例子开始看起。下面是一个流式 Word Count 的示例,虽然它只有 5 行代码,但是它给出了基于 Flink DataStream API 开发程序的基本结构。▼ 示例: 基于 Flink DataStream API 的 Word Count 示例。/原创 2020-07-05 17:47:08 · 421 阅读 · 0 评论 -
Apache Flink 入门 (第三篇)(在YARN上运行Flink任务)
运行 Flink 应用1. 基本概念运行 Flink 应用其实非常简单,但是在运行 Flink 应用之前,还是有必要了解 Flink 运行时的各个组件,因为这涉及到 Flink 应用的配置问题。下图所示,这是用户用 DataStream API 写的一个数据处理程序。可以看到,在一个 DAG 图中不能被 Chain 在一起的 Operator 会被分隔到不同的 Task 中,也就是说 Task 是 Flink 中资源调度的最小单位。Flink 实际运行时包括两类进程:JobManager(又原创 2020-07-05 15:58:15 · 914 阅读 · 0 评论 -
Apache Flink 入门 (第二篇)(流式处理及FLINK具有的优势)
「有状态的流式处理」概念解析1. 传统批处理传统批处理方法是持续收取数据,以时间作为划分多个批次的依据,再周期性地执行批次运算。但假设需要计算每小时出现事件转换的次数,如果事件转换跨越了所定义的时间划分,传统批处理会将中间运算结果带到下一个批次进行计算;除此之外,当出现接收到的事件顺序颠倒情况下,传统批处理仍会将中间状态带到下一批次的运算结果中,这种处理方式也不尽如人意。2. 理想方法第一点,要有理想方法,这个理想方法是引擎必须要有能力可以累积状态和维护状态,累积状态代表着过去历史中接收过的所原创 2020-06-25 18:37:09 · 647 阅读 · 2 评论 -
Apache Flink 入门 (第一篇)(概念,应用场景)
一、Apache Flink 的定义、架构及原理官方文档:Apache Flink 是一个分布式流批一体化的开源平台。Flink 的核心是一个提供数据分发、通信以及自动容错的流计算引擎。Flink 在流计算之上构建批处理,并且原生的支持迭代计算,内存管理以及程序优化。Apache Flink 是一个分布式大数据处理引擎,可对有限数据流和无限数据流进行有状态或无状态的计算,能够部署在各种集群环境,对各种规模大小的数据进行快速计算。1. Flink Application了解Flink 应用开发需要先理原创 2020-06-25 17:50:26 · 399 阅读 · 0 评论