sequenceFile数据格式笔记

本文深入探讨了SequenceFile数据格式的三种结构:未压缩的key/value对、记录压缩的key/value对和Block压缩的key/value对。详细解释了未压缩和只压缩value的SequenceFile数据格式,并介绍了Header、Record和Sync-marker的概念及其作用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Sequence有三种不同类型的结构:

未压缩的key/value对

记录压缩的key/value对

Block压缩的key/value对

 

未压缩和只压缩value的SequenceFile数据格式

HeaderRecordSync-marker

 

Header头部格式

versionkeyClassNamevalueClassNamecompressionblockCompressioncompressorclassmetadatasync

version版本号 占用4个字节

keyClassName和valueClassName 两个都是String类型,记录的是key和value的数据类型

compresion 是bool类型,表示记录是否压缩

blockCompression 是bool类型,表示块是否压缩

compression 压缩类,用于压缩key和value的代码

metadata 元数据

 

Record格式

record lengthkey lengthkey(Compression) value

 

Sync-marker 是一个标记,允许程序快速找到文件中的随机点。注意sync-marker是间隔几百个字节出现一次。形式如下:

HeaderRecorderRecorderRecorderSyncRecorderRecorderRecorderRecorderSync

 

Block压缩的SequenceFile数据格式

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值