DataStream API主要分为3块:DataSource、Transformation、Sink。
•DataSource是程序的数据源输入,可以通过StreamExecutionEnvironment.addSource(sourceFunction)为程序添加一个数据源。
•Transformation是具体的操作,它对一个或多个输入数据源进行计算处理,比如Map、FlatMap和Filter等操作。
•Sink是程序的输出,它可以把Transformation处理之后的数据输出到指定的存储介质中。
1) DataSource
Flink针对DataStream提供了大量的已经实现的DataSource(数据源)接口,比如下面4种。
1.基于文件[插图]读取文本文件,文件遵循TextInputFormat逐行读取规则并返回。
readTextFile(path)
读取文本文件,文件遵循TextInputFormat逐行读取规则并返回。
2.基于Socket[插图]从Socket中读取数据,元素可以通过一个分隔符分开。
socketTextStream
本文介绍了Flink DataStream API的三大核心部分:DataSource、Transformation和Sink。DataSource包括文本文件、Socket、集合和自定义数据源的实现。Transformation涵盖Map、FlatMap、Filter、KeyBy、Reduce等操作。Sink部分讨论了writeAsText、print及自定义Sink的实现方式。Flink还提供了多种数据分区策略,如随机分区、再平衡和自定义分区。
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



