Hadoop SequenceFile

SequenceFile格式详解:头信息与记录压缩
本文深入解析SequenceFile格式,包括其头信息组成及两种压缩方式:记录压缩与块压缩。通过理解这些关键概念,读者能更好地利用SequenceFile进行数据处理。

SequenceFile格式:

每一个SequenceFile都包含一个“头”(header)Header包含了以下几部分。

1.SEQ三个字母的byte数组

2.Version numberbyte,目前为数字3byte

3.KeyValue的类名

4.压缩相关的信息

5.其他用户定义的元数据

6.同步标记,sync marker

对于每一条记录(K-V),其内部格式根据是否压缩而不同。SequenceFile的压缩方式有两种,“记录压缩”(record compression)和“块压缩”(block compression)。如果是记录压缩,则只压缩Value的值。如果是块压缩,则将多条记录一并压缩,包括KeyValue。具体格式如下面两图所示:

 

转载于:https://www.cnblogs.com/pangblog/p/3315419.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值