kafka如何实现消息顺序消费和防止消息丢失

最新推荐文章于 2025-01-17 20:03:49 发布

T2_phage

最新推荐文章于 2025-01-17 20:03:49 发布

阅读量664

点赞数 25

文章标签： kafka 分布式

本文链接：https://blog.youkuaiyun.com/T2_phage/article/details/144884899

版权

在Kafka中，实现消息顺序消费和防止消息丢失是两个重要的功能，以下分别介绍其实现方式：

实现消息顺序消费

单分区顺序消费
- 原理：Kafka的每个分区内部的消息是按照生产者发送的顺序依次存储的。如果将某个主题的所有消息都发送到一个分区中，那么消费者从该分区消费消息时，就能够保证消息的顺序性。例如，在一个订单处理系统中，如果将所有与同一订单相关的消息（如创建订单、支付订单、发货等）都发送到同一个分区，那么消费者在消费该分区消息时，就能按照事件发生的顺序处理这些消息。
- 生产者实现：生产者可以通过自定义分区器来确保相关消息发送到同一分区。比如，根据订单ID的哈希值对分区数取模，将相同订单ID的消息发送到固定分区。示例代码（以Java为例）：

import org.apache.kafka.clients.producer.Partitioner;
import org.apache.kafka.common.Cluster;
import org.apache.kafka.common.PartitionInfo;
import org.apache.kafka.common.utils.Utils;

import java.util.List;
import java.util.Map;

public class OrderIdPartitioner implements Partitioner {
    @Override
    public int partition(String topic, Object key, byte[] keyBytes, Object value, byte[] valueBytes, Cluster cluster) {
        List<PartitionInfo> partitionInfos = cluster.partitionsForTopic(topic);
        int numPartitions = partitionInfos.size();
        // 假设key是订单ID
        String orderId = (String) key;
        return Math.abs(Utils.murmur2(orderId.getBytes())) % numPartitions;
    }

    @Override
    public void close() {
        // 关闭资源，这里无资源需关闭
    }

    @Override
    public void configure(Map<String,?> configs) {
        // 配置参数，这里无配置
    }
}

多分区顺序消费
- 原理：在实际应用中，单分区可能无法满足高吞吐量的需求，此时需要多个分区。为了在多分区情况下实现顺序消费，可以引入一个“分区分配器”的概念。例如，对于一个电商系统，每个店铺的消息可以发送到一个固定分区，这样每个店铺的消息处理顺序就得到了保证。同时，为每个分区分配一个独立的消费者线程来处理消息，确保每个分区内的消息顺序消费。
- 消费者实现：消费者可以使用Kafka提供的消费者组机制，通过自定义分配策略将每个分区固定分配给一个消费者实例。例如，在Java中可以继承RangeAssignor类，自定义分配逻辑，确保每个分区被固定的消费者处理。

防止消息丢失

生产者端防止消息丢失
- 设置acks参数：生产者发送消息时，可以通过设置acks参数来控制消息的确认机制。
  - acks = 0：生产者发送消息后，不等待任何来自Broker的确认，这种情况下如果Broker未收到消息，消息就会丢失，一般不建议使用。
  - acks = 1：生产者发送消息后，等待Broker的领导者副本确认收到消息。此时如果领导者副本在确认后但追随者副本同步前发生故障，消息可能丢失。
  - acks = all（或acks = -1）：生产者发送消息后，等待所有ISR中的副本都确认收到消息。这种方式最大程度保证了消息不会在发送过程中丢失。示例代码（以Java为例）：

import org.apache.kafka.clients.producer.KafkaProducer;
import org.apache.kafka.clients.producer.ProducerConfig;
import org.apache.kafka.clients.producer.ProducerRecord;
import org.apache.kafka.common.serialization.StringSerializer;

import java.util.Properties;

public class KafkaProducerExample {
    public static void main(String[] args) {
        Properties props = new Properties();
        props.put(ProducerConfig.BOOTSTRAP_SERVERS_CONFIG, "localhost:9092");
        props.put(ProducerConfig.KEY_SERIALIZER_CLASS_CONFIG, StringSerializer.class.getName());
        props.put(ProducerConfig.VALUE_SERIALIZER_CLASS_CONFIG, StringSerializer.class.getName());
        // 设置acks为all
        props.put(ProducerConfig.ACKS_CONFIG, "all");

        KafkaProducer<String, String> producer = new KafkaProducer<>(props);
        ProducerRecord<String, String> record = new ProducerRecord<>("your_topic", "key", "value");
        producer.send(record);
        producer.close();
    }
}

重试机制：生产者在发送消息失败时，可以通过设置重试次数和重试间隔来进行重试。例如，在Java中可以通过ProducerConfig.RETRIES_CONFIG参数设置重试次数，ProducerConfig.RETRY_BACKOFF_MS_CONFIG设置重试间隔。这样可以避免因网络抖动等短暂故障导致的消息丢失。
2. Broker端防止消息丢失
- 副本机制：Kafka通过为每个分区创建多个副本，并使用ISR机制来保证数据的可靠性。只有ISR中的副本都确认收到消息，生产者才会收到确认。如果领导者副本发生故障，Kafka会从ISR中选举新的领导者副本，确保数据不会丢失。
- 日志留存策略：合理设置日志留存策略，确保消息在被消费之前不会被过早删除。可以通过log.retention.hours（或log.retention.minutes、log.retention.ms）等参数设置消息在Broker上的留存时间，以及log.retention.bytes设置日志文件的最大大小。
3. 消费者端防止消息丢失
自动提交与手动提交：消费者可以选择自动提交偏移量（enable.auto.commit = true），但这种方式可能会在消费者处理消息前发生故障，导致部分消息被重复消费或丢失。为了防止消息丢失，建议使用手动提交偏移量（enable.auto.commit = false），在消费者成功处理完消息后，再手动提交偏移量。示例代码（以Java为例）：

import org.apache.kafka.clients.consumer.ConsumerConfig;
import org.apache.kafka.clients.consumer.ConsumerRecord;
import org.apache.kafka.clients.consumer.ConsumerRecords;
import org.apache.kafka.clients.consumer.KafkaConsumer;
import org.apache.kafka.common.serialization.StringDeserializer;

import java.time.Duration;
import java.util.Collections;
import java.util.Properties;

public class KafkaConsumerExample {
    public static void main(String[] args) {
        Properties props = new Properties();
        props.put(ConsumerConfig.BOOTSTRAP_SERVERS_CONFIG, "localhost:9092");
        props.put(ConsumerConfig.GROUP_ID_CONFIG, "your_group_id");
        props.put(ConsumerConfig.KEY_DESERIALIZER_CLASS_CONFIG, StringDeserializer.class.getName());
        props.put(ConsumerConfig.VALUE_DESERIALIZER_CLASS_CONFIG, StringDeserializer.class.getName());
        // 关闭自动提交
        props.put(ConsumerConfig.ENABLE_AUTO_COMMIT_CONFIG, "false");

        KafkaConsumer<String, String> consumer = new KafkaConsumer<>(props);
        consumer.subscribe(Collections.singletonList("your_topic"));

        while (true) {
            ConsumerRecords<String, String> records = consumer.poll(Duration.ofMillis(100));
            for (ConsumerRecord<String, String> record : records) {
                // 处理消息
                System.out.println("Received message: " + record.value());
            }
            // 手动提交偏移量
            consumer.commitSync();
        }
    }
}

- **异常处理**：在消费者处理消息过程中，要妥善处理可能出现的异常。例如，在处理消息时发生异常，不应该直接跳过该消息，而是应该记录异常信息，进行重试或采取其他处理措施，确保消息不会因为处理异常而丢失。