Kafka 集群如何实现数据同步？

最新推荐文章于 2025-08-05 19:42:15 发布

原创

最新推荐文章于 2025-08-05 19:42:15 发布 · 1k 阅读

12 ·

CC 4.0 BY-SA版权

文章标签：

#kafka #分布式

本文介绍了Kafka作为分布式消息系统的特性，包括topic与partition、消息日志和offset管理。重点解析了Kafka集群的数据同步机制，通过ISR（In-Sync Replicas）确保副本与leader保持同步，并详细阐述了follower如何通过fetch请求与leader进行数据同步，维持集群高可用性。

Kafka 介绍

Kafka 是一个高吞吐的分布式消息系统，不但像传统消息队列（RaabitMQ、RocketMQ等）那样能够【异步处理、流量消峰、服务解耦】

还能够把消息持久化到磁盘上，用于批量消费。除此之外由于 Kafka 被设计成分布式系统，吞吐量和可用性大大提高。

Kafka 角色

kafka 客户端
    生产者（producer）：也叫发布者，负责创建消息
    消费者（consumer）：也叫订阅者，负责消费（读取）消息
Kafka 服务端（broker）
    leader：对外提供读写服务
    follower：不提供服务，负责向 leader 同步数据

Topic（主题）和 partition（分区）

topic 就是消息发布的地方，消费者通过订阅 topic 来消费到对应的消息。

为了提高吞吐量，实现 topic 的负载均衡，Kafka 在 topic 下又引用了分区（partition）的概念，每个 topic 可以被划分成多个分区。

分区允许消息在 Topic 下水平分割和存储，每个分区都是一个有序且不可变的消息队列，消费者可以以并行的方式消费同一个 topic 中的消息。

PS：topic 是逻辑上的概念，消息真正是存储到 partition 中去的。

例如某个 topic 下被划分成 n 个分区，那么这个 topic 的并发度就提高 n，同时可以支持 n 个 consumer 并行消费该 topic 中的消息。

log（日志）

对于每一个 topic ，Kafka 都会维护一个分区日志。

每个分区都是一个有序的、不可变的消息队列，且可以持续地添加消息。消息在分区中分配了唯一的序列号，被称为偏移量（Offset）。

offset 用来唯一的标识分区中每一条记录。

Kafka 会保留所有分区中的消息，不会自动删除消息。消息的保留策略由 Kafka 配置参数控制，消息可以在一定时间或达到一定大小后过期，过期的消息会被删除。

消费者在 Kaf

最低0.47元/天解锁文章