kafka消息存储+查询机制

番茄1223

于 2021-09-11 16:27:27 发布

阅读量1.4k

点赞数

CC 4.0 BY-SA版权

分类专栏：消息队列文章标签： kafka

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/jdk819/article/details/120238532

消息队列专栏收录该内容

4 篇文章

订阅专栏

本文详细解析了Kafka的消息存储机制，包括数据切分原理、文件命名规则，以及如何通过二分查找查询特定偏移量的message。重点介绍了为何采用多文件存储和其带来的查询效率提升。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、kafka数据存储机制

kafka作为消息中间件，会临时存储消息，提供对外查询接口，数据默认存储168小时（7days），超时会被删除。

kafka采用多文件存储方式来保存数据，主要是有两个方面的考虑：

所有数据存储到一个文件，会使得存储文件比较大，影响查询的效率。
对于过期数据的清理，不太方便，需要清理掉过期数据，并将未过期的数据重新写入到文件，切分多个文件后，可以根据文件的日期，直接删除文件即可。

如上图所示，segment段有两个核心文件：log文件和index文件，当log文件等于1G时，新的数据会写到下一个segment中，可以通过下图可以看出segment段会存储差不多70万条数据。

文件命名规则说明：

00000000000000000000.index——表示最开始的文件，起始偏移量（offset）为0
00000000000000368769.index——消息的起始偏移量为368770=368769+1
00000000000000737337.index——消息的起始偏移量为368770=368769+1
*以起始偏移量命名并排序这些文件，只需要根据offset的二分查找算法，快速定位到需要查询的指定的偏移量对应的文件。

思考个问题：切分文件的时间阈值？比如一天没有写到70万条数据，应该也会生成新的segment段。

二、kafka数据查询机制

说个具体的查询例子，来说明kafka的查询机制。

比如在下图的kafka文件中，查询offset=368776的message消息。

第一步：确定segment段

根据index文件命名规则，使用二分算法，定位到368776这个偏移量应该在文件00000000000000368769.index文件中。

第二步：通过segment file查找message

第一步中已经定位了元数据物理位置00000000000000368769.index，进一步可以定位到物理偏移地址文件00000000000000368769.log，通过顺序查找到offset=268776的message。

博客等级

码龄15年

31
原创

18
点赞

72
收藏

4
粉丝

关注

私信

热门文章

分类专栏

JAVA基础知识 14篇
k8s 1篇
flink 1篇
Harbor
Python
消息队列 4篇
数据库 2篇
Spring 5篇
mybatis 1篇
开源组件 3篇

展开全部收起

上一篇：: kafka保证数据不丢失

下一篇：: Flink+Kafka：构建日志采集+流式处理分析日志

最新评论

单机使用docker容器搭建kafka集群
Liznhd: 可以看到second这个topic并没有真正删除，只是标记为deletion，如果需要真正删除，可以修改配置文件/config/server.properties中delete.topic.enable=true，请问在docker中如何修改
单机使用docker容器搭建kafka集群
lmw0320: 请问下，不用官方的kafka镜像，而直接用tar解压方法来安装kafka后，启动服务，可以吧？？因为我除了这个kafka服务，我还要用到其他的东西，所以想在我自身的镜像内，来安装kafka，启动该服务

大家在看

C语言零基础第6讲：函数

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。