流处理之基础算子
实验介绍
上一节实验中我们学习了 Flink 的集群部署,从本节开始我们将正式进入 Flink API 的学习。本节的主要内容是 Flink 流处理的基本流程和三个基础算子。
知识点
-
流处理流程
-
基础算子
- map
- filter
- flatMap
流处理流程
不仅仅是 Flink,其实不论是流处理还是批处理框架,总的来说都有以下这么⼏个流程:获取数据、对数据进行 ETL 转换,输出转换之后的结果。如果再细分的话,结合我们在第一个实验中的 WordCount 代码,可以将 Flink 流处理分为以下几个过程:
- 设置执行环境(Environment)
- 获取输入流(Source)
- 转换操作(Transform)
- 输出结果(Sink)
- 执行(Execute)

设置输入环境和执行是比较简单的,重点是 Source、Transform 和 Sink。在 Source 阶段,我们可以从内存对象中创建,也可以从文件以及 Kafka 等外部数据源中获取,还可以根据 Flink 提供的 API 自定义 Source。在 Sink 阶段,我们可以将计算的结果输出到控制台、文件、数据库或者下游的 Kafka,也可以根据 Flink 提供的 API 自定义 Sink。我们本节以及接下来的两个实验介绍的内容都是属于 Transform 阶段的,关于 Source 和 Sink 我们会在后面专门的实验中进行介绍。
基础算子
Flink 中的三个基础算子 map、fil

最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



