Flink 数据源主要分为内置数据源和第三方数据源。其中内置数据源包含文件、Socket 连接、集合类型数据等,不需要引入其它依赖库。第三方数据源定义了 Flink 和外部系统数据交互的逻辑,Flink 提供了非常丰富的数据源连接器,例如 Kafka、Elasticsearch、RabbitMQ、JDBC 等。
目录
(一)文件数据源
文件连接器提供了 BATCH 模式和 STREAMING 模式统一的 Source 和 Sink。Flink FileSystem Abstraction 支持连接器对文件系统进行(分区)读写。文件系统连接器为 BATCH 和 STREAMING 模式提供了相同的保证,而且对 STREAMING 模式执行提供了精确一次(Exactly-once)语义保证。
文件连接器支持对任意(分布式的)文件系统(例如,POSIX、S3、HDFS)以某种数据格式 (例如,Avro、CSV、Parquet) 对文件进行写入,或者读取后生成数据流或一组记录。
使用方法:
可以通过创建 FileSource.FileSourceBuilder 设置 File Source 的所有参数&#x