kafka

最新推荐文章于 2024-02-02 01:05:57 发布

原创最新推荐文章于 2024-02-02 01:05:57 发布 · 347 阅读

CC 4.0 BY-SA版权

本文介绍了Kafka的高可用性和高性能特性。在高可用方面，详细阐述了AR、ISR的概念，以及如何处理节点故障，包括脏领导者选举和控制器的角色。在高性能方面，提到了零拷贝技术提升消费端性能，分区和批量发送消息提高吞吐量，以及数据压缩减少网络传输压力。同时，讨论了ISR中节点剔除的延迟策略，以避免异常情况影响服务。

高可用

kafka副本
概念

分区中的所有副本统称为AR（Assigned Repllicas），所有与leader副本保持一定程度同步的副本（包括Leader）组成ISR（In-Sync Replicas），ISR集合是AR集合中的一个子集

1、leader副本：响应客户端的读写请求 2、follow副本：备份leader的数据，不进行读写操作 3、ISR副本：leader副本和所有能够与leader副本保持基本同步的follow副本，如果follow副本和leader副本数据同步速度过慢，该follow将会被T出ISR副本

假设N副本全挂了，node恢复后会面临同步数据的过程，这期间ISR中没有node，会导致该分区服务不可用。kafka采用一种降级措施来处理：选举第一个恢复的node作为leader提供服务，以它的数据为基准，这个措施被称为脏leader选举。

由于leader是主要提供服务的，kafka broker将多个partition的leader均分在不同的server上以均摊风险。每个parition都有leader，如果在每个partition内运行选主进程，那么会导致产生非常多选主进程。kakfa采用一种轻量级的方式：从broker集群中选出一个作为controller，这个controller监控挂掉的broker，为上面的分区批量选主

在follower落后leader超过eplica.lag.max.messages条消息的时候，不会立马踢出ISR集合，而是持续落后过replica.lag.time.max.ms时间，才会被踢出，这样可以降低异常情况的问题