Kafka

原创已于 2022-04-13 16:56:44 修改 · 289 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#kafka

于 2019-07-20 14:25:39 首次发布

中间件专栏收录该内容

5 篇文章

订阅专栏

本文介绍了Kafka的基本概念，包括其作为数据缓存和消息队列的作用，以及Apache开源项目的特性。文中详细解释了Kafka的组件如Producer、Consumer、Topic、Broker、Partition等，并阐述了分片与副本机制的工作原理。

1、什么是kafka
答：①kafka是用来做数据缓存和消息队列的，在流式计算中，kafka一般用来做缓存数据，storm通过消费kafka的数据进行计算
②kafka是Apache的开源消息系统
③kafka的目标是为处理实时数据提供一个统一，高通量，地等待的平台
④kafka是一个分布式消息队列。kafka对消息保存时根据topic（主题）进行归类，发送消息者称为producer，接收消息者称为consumer，此外kafka集群有多个kafka实例促成，每个实例都称为broker。
⑤无论kafka集群，还是producer和consumer都依赖于zookeeper集群保存一些meta（元数据）信息，来保证系统的可用性。
2、kafka结构
在这里插入图片描述
Producer ：消息生产者，就是向 kafka broker 发消息的客户端。

Consumer ：消息消费者，向 kafka broker 取消息的客户端

Topic ：每条发布到Kafka集群的消息都有一个类别，这个类别被称为Topic。

Consumer Group （CG）：这是 kafka 用来实现一个 topic 消息的广播和单播的手段。一个 topic 可以有多个 CG。topic 的消息会复制（不是真的复制，是概念上的）到所有的 CG，但每个 partition 只会把消息发给该 CG 中的一个consumer。如果需要实现广播，只要每个 consumer 有一个独立的 CG 就可以了。要实现单播只要所有的 consumer 在同一个 CG。用 CG 还可以将 consumer 进行自由的分组而不需要多次发送消息到不同的 topic。

Broker ：一台 kafka 服务器就是一个 broker。一个集群由多个 broker 组成。一个 broker 可以容纳多个 topic。

Partition：为了实现扩展性，一个非常大的 topic 可以分布到多个 broker（即服务器）上，一个topic 可以分为多个 partition，每个 partition 是一个有序的队列。partition 中的每条消息都会被分配一个有序的 id（offset）。kafka 只保证按一个 partition 中的顺序将消息发给 consumer，不保证一个 topic 的整体（多个 partition 间）的顺序。

Offset：kafka 的存储文件都是按照 offset.kafka 来命名，用 offset 做名字的好处是方便查找。例如你想找位于 2049 的位置，只要找到 2048.kafka 的文件即可。从0开始

Replication（备份）：Kafka 支持以 Partition 为单位对 Message 进行冗余备份，每个 Partition 都可以配置至少 1 个 Replication。

Leader：每个 Replication 集合中的 Partition 都会选出一个唯一的 Leader，所有的读写请求都由Leader 处理。其他 Replicas 从 Leader 处把数据更新同步到本地。每个 Cluster 当中会选举出一个 Broker 来担任 Controller，负责处理 Partition的 Leader 选举，协调 Partition 迁移等工作。

ISR(In-Sync Replica)：是 Replicas 的一个子集，表示目前 Alive 且与 Leader 能够“Catch-up”的Replicas 集合。由于读写都是首先落到 Leader 上，所以一般来说通过同步机制从 Leader 上拉取数据的 Replica 都会和 Leader 有一些延迟(包括了延迟时间和延迟条数两个维度)，任意一个超过阈值都会把该 Replica 踢出 ISR。每个 Partition 都有它自己独立的 ISR。
3、分片与副本机制
分片：当数据量非常大的时候，一个服务器存不下了，就会将数据分成两个或者多个部分，存放在多台服务器上。每个服务器上的数据叫做一个分片
副本：当数据只保存一份的时候，有丢失的风险。为了更好的容错，将数据拷贝几份，保存到不同的机器上。

Kafka分配Replica的算法如下：
将所有Broker（假设共n个Broker）和待分配的Partition排序
将第i个Partition分配到第（i mod n）个Broker上
将第i个Partition的第j个Replica分配到第（(i + j) mode n）个Broker上