kafka设计优化学习笔记

原创

已于 2022-05-14 14:12:21 修改 · 239 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#kafka

于 2019-08-29 16:02:34 首次发布

本文详细介绍了Kafka的设计优化，包括磁盘优化、常量时间读写、批处理和零拷贝优化，以及生产者和消费者优化策略。通过批处理和零拷贝，Kafka实现了高效的数据传输。此外，还探讨了端到端批量压缩、消息交付语义、生产者发送确认配置和日志压缩等特性，以提升系统性能。

以下内容基于阅读kafaka中文文档

磁盘优化

kafka进行了消息持久化，持久化就离不开磁盘，磁盘的性能比较低，kafka在这方面使用顺序io代替随机io，这极大的提高了磁盘的读写性能。现代操作系统在越来越注重使用内存对磁盘进行 cache。现代操作系统主动将所有空闲内存用作 disk caching，代价是在内存回收时性能会有所降低。所有对磁盘的读写操作都会通过这个统一的 cache。如果不使用直接I/O，该功能不能轻易关闭。因此即使进程维护了 in-process cache，该数据也可能会被复制到操作系统的 pagecache 中，事实上所有内容都被存储了两份。

Kafka 建立在 JVM 之上，jvm有如下特点：

对象的内存开销非常高，通常是所存储的数据的两倍(甚至更多)。
随着堆中数据的增加，Java 的垃圾回收变得越来越复杂和缓慢。

使用文件系统和 pagecache 可以将缓存的容量翻倍（不需要java对象的元数据信息），服务重启后缓存依旧可用（注意是服务不是服务器），如果是基于jvm的进程缓存而不是操作系统的pagecache，服务重启之后还要经历cold cache(在服务刚启动的时候性能会非常糟糕）。所有保持 cache 和文件系统之间一致性的逻辑现在都被放到了 OS 中，这样做比一次性的进程内缓存更准确、更高效。