java实现 flink 读 kafka 写 starrocks

原创于 2025-12-02 14:31:48 发布 · 258 阅读

CC 4.0 BY-SA版权

文章标签：

一.背景

在企业数字化转型进程中，实时数据处理与分析已成为支撑业务决策、优化运营效率的核心能力。Apache Flink 作为业界领先的分布式流处理框架，凭借高吞吐、低延迟、Exactly-Once 语义等特性，成为承接海量实时数据流（如日志、交易、用户行为数据）的核心引擎；Kafka 则以高并发、高可用、可持久化的优势，成为实时数据链路中的 “数据总线”，广泛用于汇集各类业务系统产生的实时数据流，是 Flink 最常用的数据源之一。

StarRocks 作为新一代 MPP 架构的实时分析型数据库，兼具 OLAP 引擎的高效查询能力与实时数据写入的兼容性，支持海量数据的秒级导入、多维聚合分析和复杂查询，被广泛应用于实时报表、用户画像、精细化运营、监控告警等场景。因此，“Flink 读取 Kafka 实时数据流，清洗转换后写入 StarRocks” 的架构，成为打通 “实时数据采集 - 处理 - 分析” 全链路的经典方案，覆盖电商、金融、物流、互联网等多个行业的核心业务场景（如实时订单统计、交易风控、实时用户行为分析等）。

然而，在该架构的 Java 开发落地过程中，开发者面临诸多实践痛点：

组件协同适配复杂：Flink、Kafka、StarRocks 三者的版本兼容性要求严格（如 Flink 内核版本与 StarRocks 连接器版本、Kafka 客户端版本需精准匹配），且 StarRocks 支持的导入方式（如 Stream Load、Broker Load、Routine Load）各有适配场景，需结合实时性需求选择合适方案；
数据一致性与可靠性挑战：实时数据流存在乱序、延迟、重复等问题，Flink 作业需保障 Exactly-Once 语义，避免数据丢失或重复写入 StarRocks，同时需处理 StarRocks 表结构变更、分区策略适配等问题；
性能优化门槛高：高吞吐场景下，需兼顾 Kafka 消费的并行度、Flink 算子的资源配置、StarRocks 导入的批次大小与频率，否则易出现数据积压、导入瓶颈或 StarRocks 集群负载过高；
开发与集成成本高：原生 StarRocks 连接器的配置繁琐，需手动处理数据序列化（如 JSON、CSV、Avro）、字段映射、异常重试、断点续传等逻辑，Java 开发中缺乏标准化的集成模板，导致开发周期长、维护难度大。

因此，基于 Java 实现 “Flink 读 Kafka 写 StarRocks” 的实践，核心目标是解决组件适配、数据一致性、性能优化等核心痛点，提供标准化的开发流程与配置方案。这一实现不仅能打通实时数据处理与实时分析的关键链路，让业务数据从产生到可用的延迟大幅降低，还能为企业构建高效、可靠的实时数据中台提供核心支撑，对提升业务决策的时效性、优化用户体验具有重要的工程实践价值与业务落地意义。

二.具体实现

1.创建java工程，引入相关依赖

<dependency>
    <groupId>org.apache.flink</groupId>
    <artifactId>flink-java</artifactId>
    <version>${flink.version}</version>
</dependency>
<dependency>
    <groupId>org.apache.flink</groupId>
    <artifactId>flink-streaming-java</artifactId>
    <version>${flink.version}</version>
</dependency>
<dependency>
    <groupId>org.apache.flink</groupId>
    <artifactId>flink-clients</artifactId>
    <version>${flink.version}</version>
</dependency>
<dependency>
    <groupId>org.apache.flink</groupId>
    <artifactId>flink-connector-kafka</artifactId>
    <version>3.0.2-1.18</version>
</dependency>       
<!-- https://mvnrepository.com/artifact/com.starrocks/flink-connector-starrocks -->
<dependency>
    <groupId>com.starrocks</groupId>
    <artifactId>flink-connector-starrocks</artifactId>
    <version>1.2.10_flink-1.18</version>
</dependency>

2.定义kafka数据解析类(默认kafka消息为json格式,每一条消息对应sr表的一条记录)

public class DataSchemaDeserialization implements KafkaDeserializationSchema<ConsumerRecord<String,String>> {

    @Override
    public boolean isEndOfStream(ConsumerRecord<String,String> nextElement) {
        return false;
    }

    @Override
    public ConsumerRecord<String,String> deserialize(ConsumerRecord<byte[], byte[]> record) throws Exception {

        return new ConsumerRecord<String, String>(
                record.topic(),
                record.partition(),
                record.offset(),
                record.timestamp(),
                record.timestampType(),
                record.checksum(),
                record.serializedKeySize(),
                record.serializedValueSize(),
                record.key() != null ? new String(record.key()) : null,
                record.value() != null ? new String(record.value(), StandardCharsets.UTF_8) : null);
    }


    @Override
    public TypeInformation<ConsumerRecord<String,String>> getProducedType() {
        return TypeInformation.of(new TypeHint<ConsumerRecord<String,String>>() {
        });
    }
}

3.定义kafka source

//配置kafka消费
Properties props = new Properties();
        props.put(CommonClientConfigs.BOOTSTRAP_SERVERS_CONFIG,"kafka地址");
        props.put(CommonClientConfigs.GROUP_ID_CONFIG,"消费组");
        props.put(ENABLE_IDEMPOTENCE_CONFIG, "true");

//消费kafka转换为数据流
FlinkKafkaConsumerBase flinkKafkaConsumer = new FlinkKafkaConsumer<>("topic", new DataSchemaDeserialization(), props).setStartFromGroupOffsets();

4.定义sr sink

env.addSource(flinkKafkaConsumer).addSink(StarRocksSink.sink(StarRocksSinkOptions.builder()
                    .withProperty("jdbc-url",jdbc地址)
                    .withProperty("load-url", load地址)
                    .withProperty("database-name", 数据库名)
                    .withProperty("table-name",表名)
                    .withProperty("username",用户名)
                    .withProperty("password", 密码)
                    .withProperty("sink.properties.format", "json")
                    .withProperty("sink.properties.strip_outer_array", "true")
                    .withProperty("sink.semantic", "exactly-once")
                    .withProperty("sink.label-prefix",事务前缀)
                    .build()))