Hive(二):之Compression(2)----HDFS/Hive里的压缩配置和测试

本文详细介绍了HDFS和Hive中的压缩配置,包括HDFS输入压缩、中间压缩、输出压缩的设置,以及Hive的BZip2和Lzo压缩测试。文章通过实例演示了不同压缩格式的使用,并探讨了压缩在输入、中间和输出三个阶段的应用,旨在提高数据处理效率。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

  • 配置
  1. core-site.xml 配置需要支持的压缩格式
<property> 
	<name>io.compression.codecs</name> 
	<value>
	org.apache.hadoop.io.compress.GzipCodec,
	org.apache.hadoop.io.compress.DefaultCodec,
	org.apache.hadoop.io.compress.BZip2Codec, 
	com.hadoop.compression.lzo.LzoCodec, 
	com.hadoop.compression.lzo.LzopCodec, 
	org.apache.hadoop.io.compress.Lz4Codec, 
	org.apache.hadoop.io.compress.SnappyCodec, 
	</value> 
</property>
  1. 然后在mapred-site.xml里配置实际使用的压缩
<!--是否支持压缩-->
<property>
	 <name>mapreduce.output.fileoutputformat.compress</name>
	<value>true</value> 
<!--压缩方式-->
</property>
<property> 
	<name>mapreduce.output.fileoutputformat.compress.codec</name> 
	<value>org.apache.hadoop.io.compress.BZip2Codec</value> 
</property>  
  • HDFS里压缩[配置

    1. 输入压缩

    HDFS里的文件压缩格式

    2.中间压缩

旧:之被遗弃的属性,新:之代替的属性

属性 描述 默认值
mapred.compress.map.output(旧);mapreduce.map.output.compress(新) Should the outputs of the maps be compressed before being sent across the network. Uses SequenceFile compression. alse
mapred.map.output.compression.codec(旧); mapreduce.map.output.compress.codec(新) If the map outputs are compressed, how should they be compressed?org.apache.hadoop.io.compress.DefaultCodec org.apache.hadoop.io.compress.DefaultCodec
  • 例子
<!--是否支持压缩-->
<property>
	 <name>mapreduce.map.output.compress</name>
	<value>true</value> 
</property>
<!--压缩方式-->
<property> 
	<name>mapred.map.output.compression.codec</name> 						
	<value>org.apache.hadoop.io.compress.SnappyCodec</value> 
	<description> 
		This controls whether intermediate files produced by Hive between multiple map-reduce jobs are compressed. The compression codec and other options are determined from hadoop config variables mapred.output.compress*
	</description> 
</property> 

  1. 最终压缩
名称 默认 定义
mapred.output.compress (旧);mapreduce.output.fileoutputformat.compress(新) mapreduce.output.fileoutputformat.compress false
mapred.output.compression.codec (旧);mapreduce.output.fileoutputformat.compress.codec(新) If the job outputs are compressed, how should they be compressed? org.apache.hadoop.io.compress.DefaultCodec
  • 例子:
<!--是否支持压缩-->
<property>
	 <name>mapreduce.output.fileoutputformat.compress</name>
	<value>true</value> 
</property>
<!--压缩方式-->
<property> 
	<name>mapreduce.output.fileoutputformat.compress.codec</name> 
	<value>org.apache.hadoop.io.compress.BZip2Codec</value> 
</property> 
  1. Hive里压缩[配置

    官网:https://cwiki.apache.org/confluence/display/Hive/AdminManual+Configuration#AdminManualConfiguration-hive-site.xmlandhive-default.xml.template

  • 输出压缩
  1. 是否开启
</
压缩位置 名称 描述 默认值
最终压缩 hive.exec.compress.output Determines whether the output of the final map/reduce job in a query is compressed or not false
中间压缩 hive.exec.compress.intermediate Determines whether the output of the intermediate map/reduce jobs in a query is compressed or not. false
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值