hive从入门到放弃(六)——文件存储格式

hive 存储格式有很多,但常用的一般是 TextFile、ORC、Parquet 格式,在我们单位最多的也是这三种。

hive 默认的文件存储格式是 TextFile。

除 TextFile 外的其他格式的表不能直接从本地文件导入数据,要先导入到 TextFile 格式的表中,再从表中用 insert 导入到其他格式的表中。

一、TextFile

TextFile 是行式存储。

建表时无需指定,一般默认这种格式,以这种格式存储的文件,可以直接在 HDFS 上 cat 查看数据。

可以用任意分隔符对列分割,建表时需要指定分隔符。

不会对文件进行压缩,因此加载数据的时候会比较快,因为不需要解压缩;但也因此更占用存储空间。

二、ORCFile

ORCFile 是列式存储。

建表时需指定 STORED AS ORC,文件存储方式为二进制文件。

Orc表支持None、Zlib、Snappy压缩,默认支持Zlib压缩。

Zlib 压缩率比 Snappy 高,Snappy 效率比 Zlib 高。

这几种压缩方式都不支持文件分割,所以压缩后的文件在执行 Map 操作时只会被一个任务所读取。

因此若压缩文件较大,处理该文件的时间比处理其它普通文件的时间要长,造成数据倾斜。

另外,hive 建事务表需要指定为 orc 存储格式。

ORC 格式如下所示:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值