kafka文件存储机制

最新推荐文章于 2024-10-30 05:30:00 发布

原创最新推荐文章于 2024-10-30 05:30:00 发布 · 8.8k 阅读

·

4

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

kafka 入门到精通专栏收录该内容

17 篇文章 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

本文介绍了Kafka的文件存储机制，重点讲解了每个partition对应的.log和.index文件，以及.timeindex文件的作用。Kafka的segment分片策略、数据的序列化存储以及索引的“稀疏索引”特性被详细阐述，帮助理解Kafka如何高效地存储和检索数据。

前言

我们知道，生产者发送给kafka的数据肯定是需要存储的，存储意味着数据落盘，但是这个数据存储的结构是怎样的呢？

不妨先来了解下kafka文件存储机制

Topic是逻辑上的概念，而partition是物理上的概念，每个partition对应于一个log文件，该log文件中存储的就是Producer生产的数据；
Producer生产的数据会被不断追加到该log文件末端，为防止log文件过大导致数据定位效率低下，Kafka采取了分片和索引机制，将每个partition分为多个segment；
每个segment包括：“.index”文件、“.log”文件和.timeindex等文件。这些文件位于一个文件夹下，该文件夹的命名规则为：topic名称+分区序号，例如：first-0；

总体的文件结构如下图所示：

对上面的文件结构再做几点补充说明：

一个partition分为多个segment
.log 日志文件 .index 偏移量索引文件 .timeindex 时间戳索引文件其他文件
<

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

逆风飞翔的小叔 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。