Flink输出算子Sink

热心市民何先生、

已于 2023-02-07 20:16:31 修改

阅读量1.5k

点赞数

文章标签： flink

于 2023-02-07 19:59:45 首次发布

本文链接：https://blog.youkuaiyun.com/Hardhen/article/details/128924842

版权

1.输出到文件

StreamingFileSink 支持行编码（Row-encoded）和批量编码（Bulk-encoded，比如Parquet）格式。这两种不同的方式都有各自的构建器（builder），调用方法也非常简单，可以直接调用StreamingFileSink 的静态方法：

行编码：StreamingFileSink.forRowFormat（basePath，rowEncoder）。

批量编码：StreamingFileSink.forBulkFormat（basePath，bulkWriterFactory）。

在创建行或批量编码Sink 时，我们需要传入两个参数，用来指定存储桶的基本路径

（basePath）和数据的编码逻辑（rowEncoder 或 bulkWriterFactory）。

StreamingFileSink<String> fileSink = StreamingFileSink
.<String>forRowFormat(new Path("./output"), new SimpleStringEncoder<>("UTF-8"))
.withRollingPolicy(
DefaultRollingPolicy.builder()
.withRolloverInterval(TimeUnit.MINUTES.toMillis(15)
)
.withInactivityInterval(TimeUnit.MINUTES.toMillis(5
))
.withMaxPartSize(1024 * 1024 * 1024)
.build())
.build();

// 将 Event 转换成 String 写入文件
stream.map(Event::toString).addSink(fileSink);

这里我们创建了一个简单的文件Sink，通过.withRollingPolicy()方法指定了一个“滚动策略”。“滚动”的概念在日志文件的写入中经常遇到：因为文件会有内容持续不断地写入，所以我们应该给一个标准，到什么时候就开启新的文件，将之前的内容归档保存。也就是说，上面的代码设置了在以下3 种情况下，我们就会滚动分区文件：