DataStream API主要分为3块:DataSource、Transformation、Sink。
•DataSource是程序的数据源输入,可以通过StreamExecutionEnvironment.addSource(sourceFunction)为程序添加一个数据源。
•Transformation是具体的操作,它对一个或多个输入数据源进行计算处理,比如Map、FlatMap和Filter等操作。
•Sink是程序的输出,它可以把Transformation处理之后的数据输出到指定的存储介质中。
1) DataSource
Flink针对DataStream提供了大量的已经实现的DataSource(数据源)接口,比如下面4种。
1.基于文件[插图]读取文本文件,文件遵循TextInputFormat逐行读取规则并返回。
readTextFile(path)
读取文本文件,文件遵循TextInputFormat逐行读取规则并返回。
2.基于Socket[插图]从Socket中读取数据,元素可以通过一个分隔符分开。
socketTextStream