Flink DataStream之Kafka数据写入HDFS，并分区到Hive

最新推荐文章于 2025-06-14 19:22:58 发布

原创

最新推荐文章于 2025-06-14 19:22:58 发布 · 9.1k 阅读

29 ·

CC 4.0 BY-SA版权

文章标签：

#flink #kafka #HDFS #Hive

Flink DataStream之Kafka数据写入HDFS，并分区到Hive

因业务要求，我们需要从Kafka中读取数据，变换后最终Sink到业务的消息队列中，为保证数据的可靠性，我们同时对Sink的结果数据，进行保存。最终选择将流数据Sink到HDFS上，在Flink中，同时也提供了HDFS Connector。下面就介绍如何将流式数据写入HDFS，同时将数据load到Hive表中。

一、pom.xml文件配置

<dependency>
  <groupId>org.apache.flink</groupId>
  <artifactId>flink-connector-filesystem_2.11</artifactId>
  <version>1.8.0</version>
</dependency>

二、Flink DataStream代码

代码是将最后的结果数据，拼接成CSV格式，最后写入HDFS中。下面的逻辑在真实地业务中删除许多。仅保留有用对大家的代码。

public class RMQAndBucketFileConnectSink {
   
   
    public static void main(String[] args) throws Exception {
   
   
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setParallelism(1);


        Properties p = new Properties();
        p.setProperty("bootstrap.servers", "localhost:9092");
        SingleOutputStreamOperator<String