Kafka 数据存储形式以及数据清理

本文详细介绍了Kafka的数据存储形式,包括日志的观察模式、写入模式和读写模式。讨论了数据清理机制,如日志删除和日志压缩,并列举了数据挤压问题的案例及解决方案,探讨了Kafka如何根据时间、大小和起始偏移量策略进行日志清理。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

在Kafka当中数据是以日志的形式存在的

Kafka 的存储日志

在Kafka当中。数据在磁盘当中的存储:

  • Kafka中的数据是保存在 /export/server/kafka_2.12-2.4.1/data中
  • 消息是保存在以:「主题名-分区ID」的文件夹中的
  • 数据文件夹中包含以下内容

在这里插入图片描述

这些分别对应:

文件名 说明
00000000000000000000.index 索引文件,根据offset查找数据就是通过该索引文件来操作的
00000000000000000000.log 日志数据文件
00000000000000000000.timeindex 时间索引
leader-epoch-checkpoint 持久化每个partition leader对应的 LEO(log end offset、日志文件中下一条待写入消息的offset )
  • 每个日志文件的文件名为起始偏移量,因为每个分区的起始偏移量是0,所以,分区的日志文件都以0000000000000000000.log开始的
  • 默认的每个日志文件最大为:log.segment.bytes =102410241024 是为1G
  • 为了简化根据 offset 查找消息,Kafka 日志文件名设计为开始的偏移量。

日志的观察模式

为了方便测试观察,新创建一个topic:「test_10m」,该topic每个日志数据文件最大为10M

bin/kafka-topics.sh --create --zookeeper node1.itcast.cn --topic test_10m --replication-factor 2 --partitions 3 --config segment.bytes=10485760

使用之

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值