一、Hadoop压缩机制
1、两种Hadoop自带压缩格式
2、常用压缩格式优缺点及应用场景
(1)gzip压缩
- 优点:压缩率比较高,而且压缩/解压速度也比较快;hadoop本身支持,在应用中处理gzip格式的文件就和直接处理文本一样;有hadoop native库;大部分Linux系统都自带gzip命令,使用方便。
- 缺点:不支持split。
- 应用场景:当每个文件压缩之后在130M以内的(1个块大小内),都可以考虑用gzip压缩格式。譬如说一天或者一个小时的日志压缩成一个gzip 文件,运行MapReduce程序的时候通过多个gzip文件达到并发。hive程序,streaming程序,和java写的MapReduce程序完全和文本处理一样,压缩之后原来的程序不需要做任何修改。