Apache Flink（三）：Flink对接DataSource

最新推荐文章于 2024-07-01 02:25:02 发布

静水流深3721

最新推荐文章于 2024-07-01 02:25:02 发布

阅读量240

点赞数

分类专栏：大数据文章标签： Flink 大数据流处理

本文链接：https://blog.youkuaiyun.com/qq_38310603/article/details/103078699

版权

本文详细介绍了Apache Flink如何对接不同的数据源，包括以文本文件、集合和Kafka作为输入源的方式。Flink提供了readTextFile和readFile方法来处理文件数据，并支持自定义数据源实现，如通过实现SourceFunction接口。对于Kafka数据源，文章提到了基本的依赖引入和代码示例，同时指出如果需要获取Kafka Record的元数据，用户需要定制KafkaDeserializationSchema。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

DataSource

DataSource指定了流计算的输入，用户可以通过flink运行环境streamExecutionEnvironment的addSource()方法添加数据源,Flink已经预先实现了一些DataSource的实现，如果用户需要自定义自己的数据源实现可以通过实现SourceFunction接口（非并行Source）或者ParallelSourceFunction 接口（实现并行Source）或者继承RichParallelSourceFunction （实现并行Source并且支持状态操作）.

File Based：以文本文件作为输入源

readTextFile(path) - 读取文本文件，底层通过TextInputFormat 一行行读取文件数据，返回是一个DataStream[String] - 仅仅处理一次

    //1.创建StreamExecutionEnvironment
    val fsEnv = StreamExecutionEnvironment.getExecutionEnvironment
    
    //2.创建DataStream -细化
    val filePath="file:///D:\\data"
    val dataStream: DataStream[String] = fsEnv.readTextFile(filePath)
    //3.对数据做转换
    dataStream.flatMap(_.split("\\s+"))
    .map((_,1))
    .keyBy(0)
    .sum(1)
    .print()
    
    fsEnv.execute("FlinkWordCountsQuickStart")

readFile(fileInputFormat, path) - 读取文本文件，底层指定输入格式 - 仅仅处理一次

    //1.创建StreamExecutionEnvironment
    val fsEnv = StreamExecutionEnvironment.getExecutionEnvironment
    
    //2.创建DataStream -细化
    val filePath="file:///D:\\data"
    val inputFormat = new TextInputFormat(null)
    val dataStream: DataStream[String] = fsEnv.readFile(inputFormat,filePath)
    //3.对数据做转换
    dataStream.flatMap(_.split("\\s+"))
    .map((_,1))
    .keyBy(0)
    .sum(1)
    .print()
    
    fsEnv.execute("FlinkWordCountsQuickStart")

readFile(fileInputFormat, path, watchType, interval, pathFilter) - 以上两个方法