Flink Streaming Connector
Flink 是新一代流批统一的计算引擎,它需要从不同的第三方存储引擎中把数据读过来,进行处理,然后再写出到另外的存储引擎中。Connector 的作用就相当于一个连接器,连接 Flink 计算引擎跟外界存储系统。Flink 里有以下几种方式,当然也不限于这几种方式可以跟外界进行数据交换:
- 第一种 Flink 里面预定义了一些 source 和 sink。
- 第二种 Flink 内部也提供了一些 Boundled connectors。
- 第三种可以使用第三方 Apache Bahir 项目中提供的连接器。
- 第四种是通过异步 I/O 方式。
下面分别简单介绍一下这四种数据读写的方式。
1、预定义的 source 和 sink
Flink 里预定义了一部分 source 和 sink。分为 3 类。
1)基于文件的 source 和 sink
如果要从文件中读取数据,可以直接使用:
env.readTextFile(path) // 以文本的形式读取该文件中的内容
env.readFile(fileInputFormat, path) // 根据指定的格式读取文件中的内容
如果数据在 Flink 内进行了一系列的计算,想把结果写出到文件里,也可以直接使用内部预定义的一些 sink,比如将结果已文本或 csv 格式写出到文件中,可以使用:
dataStream.writeAsCsv(path)
dataStream.writeAsText(path)
2)基于 Socket 的 Source 和 Sink
提供 Socket 的 host name 及 port 读取数据,可以使用:
env.socketTextStream("localhost", 9999); // 如从本地 9999 端口以文本的形式读取数据
如果想把结果写入 Socket,可以使用:
dataStream.writeToSocket(host,port,new SimpleStringScheme(