Kafka生产者原理

花园宝宝胡图图

已于 2022-05-18 17:49:37 修改

阅读量839

点赞数

分类专栏： kafka 文章标签： kafka 分布式

于 2022-05-15 17:43:25 首次发布

本文链接：https://blog.youkuaiyun.com/weixin_58104242/article/details/124767065

版权

kafka 专栏收录该内容

4 篇文章

订阅专栏

本文详细解析了Kafka生产者如何通过序列化、分区、幂等性和事务机制确保数据高效、一致地发送。涉及batch.size、linger.ms配置，以及事务级别acks策略，展示了Kafka在数据处理中的关键环节和技术细节。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Producer首先调用send方法进行发送

首先会经过拦截器，可以对数据进行一些加工处理

随后会经过序列化，kafka并没有采用Java提供的序列化器，而是自己实现的序列化器，但是Java提供的序列化器，会在原有数据的基础上，增加很多的用于安全校验的数据，在大数据的场景下，每次传输的数据量很大，如果在此基础上还要加入大量用于安全校验的数据，严重的影响了效率，所以kafka等中间件，自己实现了序列化器，仅仅进行简单的校验，增加了效率。

随后经过分区器（分区器实际上是将数据发送到了缓冲队列中，缓冲队列是一个双端队列，其内部包含内存池，避免频繁的申请和释放内存），因为kafka可以对topic进行分区，所以发送时就需要确定向哪个分区发送信息，就由分区器定义的规则来发送，一个分区对应一个队列，这些队列都是在内存中创建的，总大小默认32M，每一批次默认大小32K。

sender线程帮助我们将缓冲队列中的数据，发送到kafka集群中。

batch.size：只有数据累积到batch.size之后，sender才会发送数据。默认16K
linger.ms：如果数据迟迟未达到batch.size，sender等待linger.ms设置的时间到了之后就会发送信息。单位ms，默认值是0ms(即默认到了就发送，不等待到达batch.size阈值)

生产环境中上面两个参数都需要调整

发送时，以分区节点为key，即broker1，broker2为key，请求为value进行发送，形成一个请求。请求发送到某个broker中，如果第一个请求发送到broker1，broker1没有即使的应答，允许继续发送第二个请求，直到五个请求都没有得到应答，后续的请求不会再发送，直到得到了请求的应答才继续发送。

kafka集群收到请求之后会涉及到一个应答机制，应答级别分为0、1、-1

0：生产者发送过来的数据，不需要等待数据落盘应答
1：生产者发送过来的数据，Leader（数据落盘）收到后应答，副本有没有无所谓
-1（all）：生产者发送过来的数据，Leader和ISR里面的所有节点收齐数据后应答，-1和all等价。
- Leader维护了一个动态的in-sync replica set(ISR)，意为和Leader保持同步的Follow + Leader集合(leader：0，ISR：0,1,2)
- 如果Follower长时间未向Leader发送通信请求或同步数据，则该Follow将被踢出ISR。改时间阈值由replica.lag.time.max.ms参数设定，默认30s
  - 例如如果2超时，（leader：0，ISR：0,1）
- 在生产环境中，acks=0很少使用；acks=1，一般用于传输普通日志，允许丢个别数据；acks=1，一般用于传输和钱相关的数据，对可靠性要求比较高的场景