FLINK实现一个sink同时写入一个kafka实例的多个topic

原创于 2025-12-01 11:18:00 发布 · 491 阅读

CC 4.0 BY-SA版权

文章标签：

一.背景

在现代数据架构中，Apache Flink 作为一款强大的分布式流处理框架，被广泛应用于实时数据的采集、转换、分析和分发。Apache Kafka 则作为高性能的分布式消息队列，常被用作 Flink 作业的数据源（Source）和数据输出目的地（Sink）。

在许多实际业务场景中，数据处理的结果并非只需要写入单一的 Kafka Topic，而是需要根据不同的业务规则、数据类型或下游消费需求，将处理后的数据流分发到同一个 Kafka 实例中的多个不同 Topic。例如：

数据分发与隔离：一个电商平台的实时交易数据流，在经过 Flink 处理后，可能需要：
- 将完整的交易记录写入 order-full-record Topic，用于数据仓库的离线分析。
- 将交易金额、用户 ID 等关键信息写入 order-payment Topic，供实时风控系统消费。
- 将新用户注册信息从交易流中提取出来，写入 user-registration Topic，供用户画像系统使用。通过这种方式，可以实现数据的物理隔离，不同下游系统只关注自己感兴趣的 Topic，降低了系统间的耦合度。
多维度数据分析：在实时监控系统中，原始的监控指标数据流（如 CPU、内存、网络等）经过 Flink 聚合处理后，可能需要：
- 按服务维度聚合后的数据写入 service-metrics Topic。
- 按机器维度聚合后的数据写入 machine-metrics Topic。
- 将异常告警事件单独写入 alert-events Topic。这样，不同的数据分析和展示模块可以订阅不同的 Topic，获取各自所需的数据视图。
数据备份与同步：在某些场景下，除了将处理后的结果写入主要的业务 Topic 外，还需要将一份原始或经过轻微处理的数据写入一个备份 Topic，用于灾难恢复或数据重放。

传统上，如果不使用 Flink 的高级特性，要实现上述功能，可能需要：

多个 Sink 算子：为每个目标 Topic 都定义一个 Kafka Sink 算子。这种方式虽然直观，但会导致作业 DAG 复杂，并且对于同一批数据，每个 Sink 都需要独立地与 Kafka 集群建立连接和写入数据，在数据量巨大时，会带来较大的网络开销和客户端资源消耗。
自定义 ProcessFunction：在一个 ProcessFunction 中，根据业务逻辑将数据发送到不同的 OutputTag，然后再通过侧输出（Side Output）连接到不同的 Kafka Sink。这种方式比多个独立 Sink 稍好，但仍然需要为每个 OutputTag 配置一个 Sink，配置和管理上依然存在冗余。

为了更优雅、更高效地解决 “一源多写” 到同一 Kafka 实例多个 Topic 的问题，我们可以利用 Flink 提供的灵活性，通过自定义一个 Sink 或者利用现有的 Kafka Sink 结合自定义的序列化逻辑，实现一个能够根据数据内容动态决定目标 Topic 的 Sink。这样做的好处是：

代码简洁：在 Flink 作业中只需定义一个 Sink 算子，所有的路由逻辑都封装在内部。
资源高效：可以共享 Kafka 生产者的连接池和其他资源，减少了与 Kafka 集群的连接数和数据序列化开销。
易于维护： Topic 的路由规则集中管理，便于后续的修改和扩展。

因此，研究并实现一个能够高效、灵活地将 Flink 数据流写入同一个 Kafka 实例多个 Topic 的 Sink，对于提升实时数据处理系统的性能、可维护性和扩展性具有重要的实践意义。

二.具体方法

1.定义一个数据流作为输入，数据流格式是Tuple2<topic名,数据>

DataStream<Tuple2<String,JSONObject>>  datastream=...

2.自定义KeyedSerializationSchema

public class DynamicTopicsSerializationSchema implements KeyedSerializationSchema<Tuple2<String,JSONObject>> {


    @Override
    public byte[] serializeKey(Tuple2<String,JSONObject> value) {
        String pk = value.f1.hashCode()+"";

        return (pk).getBytes();
    }

    @Override
    public byte[] serializeValue(Tuple2<String,JSONObject> value) {
        String values = value.f1.toString();
        return values.getBytes();

    }

    @Override
    public String getTargetTopic(Tuple2<String,JSONObject> value) {

        return value.f0;

    }
}

3.自定义FlinkKafkaPartitioner（写入topic的分区也可以自定义规则）

public class DynamicTopicsKafkaPartitioner extends FlinkKafkaPartitioner<Tuple2<String,JSONObject>> {

    private static Logger logger = LoggerFactory.getLogger(DynamicTopicsKafkaPartitioner.class);

    public static final long BKDR_HASH_FACTOR;

    private static final Random RANDOM = new Random();


    @Override
    public int partition(Tuple2<String,JSONObject> pairValue, byte[] key, byte[] value, String topic, int[] partitions) {
            return Math.abs(pairValue.f1.hashCode() % partitions.length);
    }
}

4.构建sink

Properties producerConfig = new Properties();
        producerConfig.setProperty(CommonClientConfigs.BOOTSTRAP_SERVERS_CONFIG,sinkKafkaAddr);

FlinkKafkaProducer flinkKafkaProducer = new FlinkKafkaProducer(
                "",
                new DynamicTopicsSerializationSchema(),
                producerConfig,
                java.util.Optional.of(new DynamicTopicsKafkaPartitioner()),
                FlinkKafkaProducer.Semantic.EXACTLY_ONCE,
                FlinkKafkaProducer.DEFAULT_KAFKA_PRODUCERS_POOL_SIZE
        );