Kafka知识点总结

wanger61

已于 2025-02-11 15:46:19 修改

阅读量1.1k

点赞数 18

分类专栏： Kafka 文章标签： kafka linq 分布式

于 2025-02-11 14:19:14 首次发布

本文链接：https://blog.youkuaiyun.com/wanger61/article/details/145566517

版权

pull模式的优点：

生产者在发送消息时主要存在两个线程：主线程 和 Sender线程

主线程即调用KafkaProducer.send方法的线程。当send方法被调用时，消息并没有真正被发送，而是暂存到RecordAccumulator。通过暂存机制可以提升吞吐量，可以将多条消息通过一个ProduceRequest批量发送出去，并提高数据压缩效率
Sender线程在满足一定条件后，会去RecordAccumulator中取消息并发送到Kafka Server端。

消息暂存器维护了一个内存池（默认大小32M），并且为每一个分区维护了一个双端队列，队列中是一个个批次

写入数据时，会从内存池中取出内存，创建批次（默认大小16k）

当缓存空间耗尽，其他发送调用将被阻塞当缓存空间耗尽，其他发送调用将被阻塞

当一个批次的数据大小积累到 batch.size 或者到达了延迟时间 linger.ms，唤醒sender线程
Sender线程从分区中拉取数据。拉取数据的方式是以brokerId为key,所有分区的请求为value放到队列中
Sender线程通过selector发送数据，数据发送成功之后，会有应答机制，返回acks，应答级别有3种。如果反馈回来的请求是成功，则会删除发送数据成功的请求以及清理分区中请求中拉取的数据（释放批次的内存，放回到内存池中）。如果失败会进行重试，重试的次数（默认是Int的最大值，可以进行修改，一般是3-5次）
如果发送数据的第一个请求到达集群中的某一个broker没有应答，允许继续发送请求，默认每个broker节点最多缓存5个请求

指明 partition 的情况下，直接将指明的值直接作为 partiton 值
既没有 partition 值又没有 key 值的情况下，第一次调用时随机生成一个整数（后面每次调用在这个整数上自增），将这个值与 topic 可用的 partition 总数取余得到 partition值，也就是常说的 round-robin 算法。
没有指明 partition 值但有 key 的情况下，将 key 的 hash 值与 topic 的 partition数进行取余得到 partition 值；在Producer往Kafka插入数据时，控制同一Key分发到同一Partition<