Flink Streaming中实现多路文件输出

最新推荐文章于 2025-10-21 08:30:00 发布

原创

最新推荐文章于 2025-10-21 08:30:00 发布 · 2.4k 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#batch

本文介绍了在Flink Streaming中实现多路文件输出的方法，由于Flink内部未提供直接API，作者通过实现`RichParallelSinkFunction`和`MultipleTextOutputFormat`接口，结合`TextOutputFormat`，根据记录类别创建不同文件。运行程序后，记录按类型写入相应文件，注意文件大小可能因HDFS块大小延迟显示。在Flink Batch模式下，可直接使用Hadoop的`MultipleOutputFormat`。

　有时候我们需要根据记录的类别分别写到不同的文件中去，正如本博客的《Hadoop多文件输出：MultipleOutputFormat和MultipleOutputs深究(一)》《Hadoop多文件输出：MultipleOutputFormat和MultipleOutputs深究(二)》以及《Spark多文件输出(MultipleOutputFormat)》等文章提到的类似。那么如何在Flink Streaming实现类似于《Spark多文件输出(MultipleOutputFormat)》文章中提到的功能呢？很遗憾，Flink内置并不提供相应的API接口来实现这种功能，我们需要自己实现多路文件输出。

　　在Flink Streaming的DataStream类中可以发现，DataStream的print函数、printToErr函数以及writeAsText函数都是封装了一个称为Sink的对象；而这些Sink都是实现了org.apache.flink.streaming.api.functions.sink.RichSinkFunction或者org.apache.flink.streaming.api.functions.sink.SinkFunction接口的，所以我们也可以自己实现上述两个接口从而达到文件的多路输出功能。

　　我们还发现，Flink中有一个org.apache.flink.api.java.io.TextOutputFormat类，此类通过调用FSDataOutputStream对象将记录写入到HDFS（当然也可以是其他Hadoop支持的文件系统），所以我们可以封装TextOutputFormat，然后根据record类别的不一样创建不一样的TextOutputFormat对象，从而实现文件的多路输出，根据上面的思路我实现了一个名为MultipleTextOutputFormatSinkFunction类，具体实现如下：

package com.iteblog

import org.apache.flink.api.common.functions.RuntimeContext

import org.apache.flink.api.common.io.CleanupWhenUnsuccessful

import org.apache.flink.api.java.io.TextOutputFormat

import org.apache.flink.configuration.Configuration

import org.apache.flink.core.fs.Path

import org.apache.flink.streaming.api.functions.sink.RichSinkFunction

import org.slf4j.LoggerFactory

import scala.collection.mutable

/**

* Created by https://www.iteblog.com on 2016/5/9.

*/