Hive数据压缩_MR数据压缩_存储数据压缩

本文探讨了Hive中的数据压缩,主要涉及MR数据压缩的基本含义、压缩编码和实际操作,以及Hive存储数据压缩的原理,如textFile、sequenceFile、rcfile、orc和parquet等存储格式的压缩性能比较。建议在IO密集型任务中使用压缩,推荐orc或parquet作为Hive表的存储格式,并选择snappy或lzo作为压缩方式。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一 MR 数据压缩

Hadoop三大核心:HDFS(负责存储)、MapReduce(负责计算)、Yarn( 负责调度计算)
Hive基于HDFS存储,Hive计算是将Hql语句转换为MR任务,而MR任务可以对处理的数据进行压缩。所以所谓Hive数据压缩就是MR数据压缩

1、基本含义

MR压缩:通过压缩编码对mapper或者reducer的输出进行压缩,以减少磁盘IO,提高MR程序运行速度,但相应增加了cpu运算负担


压缩特性运用得当能提高性能,但运用不当也可能降低性能。其基本原则是:

  • 运算密集型的job,少用压缩
  • IO密集型的job,多用压缩

2、压缩编码、算法和对比

MR支持的压缩编码

为了支持多种压缩/解压缩算法,Hadoop引入了编码/解码器,如下表所示:

压缩格式 对应的编码/解码
DEFAULT org.apache.hadoop.io.compress.
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值