Topic是逻辑上的概念,而partition是物理上的概念,每个partition对应一个log文件,该log文件中存储的就是Producer生产的数据。Producer上产的数据会被不断追加到该log文件末端,为了防止log文件过大导致数据定位效率低下,Kafka采取了分片和索引机制,将每个partition分为多个segment。每个segment(1G)包括:.index文件,.log文件和.timeindex等文件。这些文件位于一个文件夹下,该文件夹的命名规则为:topic名称+分区序号,例如:first-0.
.log 日志文件
.index 偏移量索引文件(稀疏索引,每往log文件写入4kb数据,写入条索引;保存的offset为相对offset,确保所占空间不会太大)。稀疏索引可以减少内存的消耗,但是查询可能消耗更多时间。
.timeindex 时间戳索引文件
Kafka文件存储机制
最新推荐文章于 2024-10-30 05:30:00 发布