自定义Flink消费和生产Kafka消息（消费时Schema、生产时Key&Value&分区）

最新推荐文章于 2025-10-08 08:01:04 发布

原创

最新推荐文章于 2025-10-08 08:01:04 发布 · 1.6k 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#flink #大数据

本文介绍了如何在消费和生产Kafka数据时自定义数据格式。在消费端，通过实现KafkaDeserializationSchema接口创建CustomKafkaSchema，以适应特定的数据解析需求。而在生产端，使用KeyedSerializationSchema（在Flink 1.10已过时）或KafkaSerializationSchema来自定义消息序列化，并可动态指定目标topic。这两种方法确保了数据的正确处理和传输，同时也支持Flink的 Exactly-once 语义。

当我们在消费Kafka数据时，比较常用的是SimpleStringSchema，我个人比较喜欢用的是JSONKeyValueDeserializationSchema。上述两个API可以完成绝大多数的开发场景，但是但遇到个别的特殊场景时，我们需要自定义数据格式，此时我们就需要自定义xxSchema了，这里我们需要实现KafkaDeserializationSchema，从而来完成重定义消费时Kafka的数据格式。

以下是基本的模板，需要什么样的数据格式，只需要做简单的修改即可。

package com.demo.flink.sink;

import org.apache.flink.api.common.typeinfo.TypeInformation;
import org.apache.flink.streaming.connectors.kafka.KafkaDeserializationSchema;
import org.apache.kafka.clients.consumer.ConsumerRecord;

/**
 * @author jiajingsi
 * Date 2019-04-09 14:24
 * Description
 * Version 1.0
 */
public class CustomKafkaSchema implements KafkaDeserializationSchema<ConsumerRecord<String, String>> {

    private final static String ENCODING = "UTF8";

    /**
     * Method to decide whether the element signals the end of the stream. If
     * true is returned the element won't be emitted.
     *
     * @param nextElement The element to test for the end-of-stream signal.
     *

最低0.47元/天解锁文章