什么是kafka，一篇kafka入门

最新推荐文章于 2023-11-21 14:11:34 发布

原创最新推荐文章于 2023-11-21 14:11:34 发布 · 350 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#kafka #中间件

kafka 专栏收录该内容

13 篇文章

订阅专栏

本文深入解析了Kafka的基本概念，包括Brokers、Topics、Partitions和消费者群组，阐述了其作为消息队列的点对点和发布订阅模式，以及它在解耦、冗余、扩展性和顺序保证等方面的优势。Kafka架构示意图和消费组的广播与单播模式也进行了详细说明。

什么是kafka

kafka官方定义是一个分布式流处理平台，但是他更多是被用来当作一个分布式消息队列来使用。
重要概念：

borker:
kafka集群可以有多个borker实例组成，每个实例称为borker。
topic：
主题，主题是一个逻辑概念，可以理解为topic是一种类别。kafka吧收到的消息按topic进行分类。
partition：
分区，分区是物理分区，一个主题中会有多个分区，一个主题中的一个条消息只放在一个分区中，分区可以有多个备份。一般，分区和其备份分区不会在一个物理设备上。
producer：
往kafka发送消息的用户。
consumer：
接收kafka消息的用户。

消息队列

点对点模式：

在这里插入图片描述
消费者主动拉取数据，消息收到后消息清除。点对点模式通常是一个基于拉取或轮询的消息发送模型。此模型中，消费者从队列主动拉取信息，而不是消息系统推送消息给消费者，并且，消息只能被一个且只有一个消费者接收处理，即使有多个消息监听者也是如此。

发布订阅模式：

在这里插入图片描述
一对多，数据生产后，推送给所有订阅者。发布订阅模型则是一个基于推送的消息传送模型。发布订阅模型可以有多种不同的订阅者，临时订阅者只在主动监听主题时才接收消息，而持久订阅者则监听主题的所有消息，即使当前订阅者不可用，处于离线状态。

消息队列的作用

解耦
　　服务与服务之间不需要紧密结合，可以独立扩展，只要确保它们遵守一致的数据结构定义。也可以作为一种异步的实现方式。
冗余
　　消息队列把数据持久化直到它明确被处理，通过这一方式规避了数据丢失的风险。许多消息队列采用的“插入-获取-删除”范式中，在把一个消息从队列中删除之前，需要你的处理系统明确的指出该消息已经被处理完毕，从而确保你的数据被安全的保存直到你使用完毕。
扩展性
　　因为消息队列解耦了你的处理过程，所以增大消息入队和处理的频率是很容易的，只要另外增加处理过程即可。
灵活性 & 峰值处理能力
　　在访问量剧增的情况下，应用仍然需要继续发挥作用，但是这样的突发流量并不常见。如果为以能处理这类峰值访问为标准来投入资源随时待命无疑是巨大的浪费。使用消息队列能够使关键组件顶住突发的访问压力，而不会因为突发的超负荷的请求而完全崩溃
顺序保证
　　在大多使用场景下，数据处理的顺序都很重要。大部分消息队列本来就是排序的，并且能保证数据会按照特定的顺序来处理。（Kafka 保证一个 Partition 内的消息的有序性）
异步通信
　　很多时候，用户不想也不需要立即处理消息。消息队列提供了异步处理机制，允许用户把一个消息放入队列，但并不立即处理它。想向队列中放入多少消息就放多少，然后在需要的时候再去处理它们。

kafka架构

l为leader,f为follower,p1为partition1。
图中，有多个生产者分别向两个主题中生产消息，每个主题中有多个partition,partition还有可能有多个副本，这些相同的分区必须选出一个leader来。消费者会订阅各自需要的主题。
无论是 kafka broker 本身，还是 producer 或者 consumer，都依赖于 zookeeper 集群保存一些 meta 信息，保证系统可用性，以及使用 zookeeper 的选举机制。
consumer group（CG）：这是 kafka 用来实现一个 topic 下的消息的广播语义（发给所有的 consumer）和单播语义（发给任意一个 consumer）的手段。一个 topic 可以有多个 consumer group。topic 下的消息会复制给 consumer。**如果需要实现广播，那么只要每个 consumer 有一个独立的 consumer group。要实现单播，只要所有的 consumer 在同一个 consumer group。**consumer group 还可以将 consumer 进行自由的分组，而不需要多次发送消息到不同的 topic。