hive数据格式

本文详细介绍了Hive中四种主要的存储格式:TextFile、SequenceFile、ORCFile和Parquet。对比了它们的特点,如行式存储与列式存储的区别,数据压缩方式,以及对查询性能的影响。特别强调了ORCFile的高效性和Parquet的广泛应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1 textfile
行式存储
数据不进行压缩 网络开销比较大

·2 sequencefile 二进制文件
二进制文件,它将数据(key,value)的形式序列化到文件里
·3 ORC file
1. ORC是列式存储,有多种文件压缩方式,并且有着很高的压缩比。
2. 文件是可切分(Split)的。因此,在Hive中使用ORC作为表的文件存储格式,不仅节省HDFS存储资源,查询任务的输入数据量减少,使用的MapTask也就减少了
3. 提供了多种索引,row group index、bloom filter index。
4. ORC可以支持复杂的数据结构(比如Map等)
·4parquet
https://blog.51cto.com/11964104/2071800

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值