1. 架构
分区
Kafka的主题多分区机制,分区的副本、领导者副本一般均匀地分布在不同的Broker上,实现了并行处理,为Kafka提供了高伸缩性以及负载均衡能力。
基于ISR的动态复制方案
Kafka既不是完全的同步复制,也不是完全的异步复制,而是基于ISR实现了动态复制方案。同步副本是可变的,这样避免了较慢的副本拖慢整体速度,同时也兼顾了数据一致性。
2. 磁盘
2.1 零拷贝
Kafka需要在磁盘和网络之间传输大量的数据,在传统的非零拷贝场景下,比如使用InputStream和OutputStream将数据从磁盘发送到网络上,一共发生了4次数据拷贝,其中两次DMA拷贝,两次CPU拷贝,以及4次上下文切换:
- JVM发起read()调用,从用户态切换到内核态,DMA将数据从硬盘拷贝到内核读缓冲区。
- CPU将数据从内核读缓冲区拷贝到应用程序内存。read()调用返回,线程从内核态切换到用户态。
- JVM发起write()调用,从用户态切换到内核态,CPU将数据从应用程序内存拷贝到内核的Socket缓冲区。
- write()调用返回,线程从内核态切换到用户态。DMA将数据从Socket缓冲区拷贝到网卡缓存区(异步)。