flink-streaming消费kafka动态分区写入HDFS(SequenceFile)文件

原创

已于 2022-06-01 20:28:30 修改 · 1.2k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#kafka #hdfs #flink #数据仓库

于 2022-01-09 10:59:06 首次发布

本文介绍如何使用 Apache Flink 在 streaming 模式下实现动态分区，重点讲解自定义分区方法的过程，包括从流数据中获取分区字段，并通过具体示例展示如何配置 StreamingFileSink 实现数据写入 HDFS 的 SequenceFile。

主要记录下streaming模式下动态分区怎么写文件，sql模式直接写就是了，streaming模式需要自己写下分区方法。大致的数据流程是消费kafka，拆解json，数据写到hdfs(sequenceFile)路径。

1、分区需要自定义，这里是读取流数据，获取分区字段

package partitionassigner;

import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.core.io.SimpleVersionedSerializer;
import org.apache.flink.streaming.api.functions.sink.filesystem.BucketAssigner;
import org.apache.flink.streaming.api.functions.sink.filesystem.bucketassigners.SimpleVersionedStringSerializer;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;

import java.text.SimpleDateFormat;
import java.util.Date;

public class PartitionAssigner<IN> implements BucketAssigner<Tuple2<LongWritable, Text>, String> {

    @Ove