一、由于 Hadoop 本身并不支持 LZO 压缩,所以需要使用 twitter 的 hadoop-lzo 开源组件。
1.hadoop-lzo 需要依赖 hadoop 和 lzo 进行编译,编译步骤请参考:
https://blog.youkuaiyun.com/S_Alics/article/details/108513408
2.将编译好的 hadoop-lzo 的 jar 包放入 hadoop/share/hadoop/common(放在自己真实的路径的common文件夹下)
3.配置 core-site.xml
<configuration>
<property>
<name>io.compression.codecs</name>
<value>
org.apache.hadoop.io.compress.GzipCodec,
org.apache.hadoop.io.compress.DefaultCodec,
org.apache.hadoop.io.compress.BZip2Codec,
org.apache.hadoop.io.compress.SnappyCodec,
com.hadoop.compression.lzo.LzoCodec,
com.hadoop.compression.lzo.LzopCodec
</value>
</property>
<property>
<name>io.compres