hadoop 序列化压缩

hadoop 序列化和 Java 序列化的区别

Java 序列化的特点:

  1. 序列化的信息非常详细,包括类信息等,而这决定了Java序列化很占内存和并且并不高效(相对于hadoop序列化)。
  2. Java 序列化的时候在不断创建对象,对GC回收压力大

Hadoop 序列化的特点:
1. 减少无用信息序列化
2. 序列化对象可重用
3. 自己实现序列化,可以更好控制扩展,例如proto、avro、thrift

压缩

压缩算法一般分为可分割压缩还是不可分割压缩,如果文件要使用在MapReduce上,最好选择可分割压缩。
SequenceFile: 避免海量小文件将namenode打垮,应对小文件进行SequenceFile压缩,压缩方式分为行压缩和块压缩。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值