FlinkSQL使用自定义UDTF函数行转列-IK分词器

最新推荐文章于 2025-09-27 20:19:36 发布

原创

最新推荐文章于 2025-09-27 20:19:36 发布 · 853 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#flink #大数据 #java #kafka

本文介绍了如何使用Apache Flink的TableAPI结合IK分词器创建KeywordUDTF，实现在Kafka流处理中将JSON数据的字段按词进行拆分，模拟Hive explode函数。通过实例展示了从Kafka消费、分词到结果展示的完整流程。

一、背景说明

本文基于IK分词器，自定义一个UDTF（Table Functions），实现类似Hive的explode行转列的效果，以此来简明开发过程。

如下图Flink三层API接口中，Table API的接口位于最顶层也是最易用的一层，可以套用SQL语法进行代码编写，对于有SQL基础的能很快上手，但是不足之处在于灵活度有限，自有函数不能满足使用的时候，需要通过自定义函数实现，类似Hive的UDF/UDTF/UDAF自定义函数，在Flink也可以称之为Scalar Functions/Table Functions/Aggregate Functions。
在这里插入图片描述

二、效果预览

Kafka端建立生产者发送json片段：
在这里插入图片描述
IDEA侧消费数据处理后效果：

如上所示，形成类似Hive的exploed炸裂函数实现行转列的效果，当然也可以不用IK分词器，直接按空格进行split实现逻辑是一样的。

三、代码过程

由于Flink一般在流式环境使用，故这里数据源使用Kafka，并建立动态表的形式实现，以更好的贴近实际的业务环境。

工具类：

package com.test.UDTF;
import org.apache.flink.table.annotation.DataTypeHint;
import org.apache.flink.table.annotation.FunctionHint;
import org.apache.flink.table.functions.TableFunction;
import org.apache.flink.types.Row;
import org.wltea.analyzer.core.IKSegmenter;
import org.wltea.analyzer.core.Lexeme;
import java.io.IOException;
import java.io.StringReader;
import java.util.ArrayList;
import java.util.List;
/**
 * @author: Rango
 * @create: 2021-05-04 16:50
 * @description: 建立函数，继承TableFunction并建立eval方法
 **/
@FunctionHint(output = @DataTypeHint("ROW<word STRING>"))
public class KeywordUDTF extends TableFunction<Row> {
   
   
    //按官方文档说明，须按eval命名
    public void eval(String value){
   
   
        List<String> stringList = analyze(value);
        for (String s : stringList) {
   
   
            Row row = new Row(1);
            row.setField(0