生产者写入消息到topic,kafka将依据不同的策略将数据分配到不同的分区中
1.轮询分区策略
2.随机分区策略
3.按key分区分配策略
4.自定义分区策略
1.1 轮询分区策略
默认的策略,也是使用最多的策略,可以最大限度的保证所有消息平均分配到分区里面
如果在生产消息时,key为null,则使用轮询算法均衡地分配分区
1.2 随机分区策略
基本废弃,可能会造成数据倾斜
1.3 按key分区分配策略
按key分配策略,key.hash()%分区的数量,然后shuffle到对应的分区,有可能会出现数据倾斜,例如:某个key包含了大量的数据,因为key值一样,所有的数据都将分配到一个分区中,造成该分区的消息数量远大于其他的分区
乱序问题
使用轮询策略和随机策略,单个分区是有序,但是整个topic的分区数据消费者组中的消费者读起来,就是乱序的了。按key分区策略,只能保证局部有序。
kafka中的消息是全局乱序的,局部partition是有序的,如果我们要实现消息总是有序的,可以将连续的消息放到一个partition。但kafka就失去了分布式的意义。
1.4 自定义分区策略
自己通过自定义方法去实现。
Kafka生产者采用不同的分区策略,包括轮询、随机、按Key和自定义策略。轮询策略确保消息平均分配,随机策略可能导致数据倾斜,按Key策略保证局部有序但可能引发全局乱序。自定义策略允许用户实现特定的分区逻辑。
1万+

被折叠的 条评论
为什么被折叠?



