[Hive08]从Hive中的stored as file_foramt看Hive调优

本文对比了行式和列式存储在压缩和查询效率上的差异,详细介绍了Hive中的存储格式,如TEXTFILE、SEQUENCEFILE、RCFILE和ORC,并通过示例展示了不同格式对查询性能的影响,强调ORC格式在存储空间和查询效率上的优势。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、行式存储与列式存储

行式数据库 对比 列式数据库

行式数据库存储在hdfs上式按行进行存储的,一个block存储一或多行数据。

而列式数据库在hdfs上则是按照列进行存储,一个block可能有一列或多列数据。

如果要将数据进行压缩:

对于行式数据库,必然按行压缩,当一行中有多个字段,各个字段对应的数据类型可能不一致,压缩性能压缩比就比较差。

对于列式数据库,必然按列压缩,每一列对应的是相同数据类型的数据,故列式数据库的压缩性能要强于行式数据库。

如果要进行数据的查询:

假设执行的查询操作是:select id,name from table_emp;

对于行式数据库,它要遍历一整张表将每一行中的id,name字段拼接再展现出来,这样需要查询的数据量就比较大,效率低。

对于列式数据库,它只需找到对应的id,name字段的列展现出来即可,需要查询的数据量小,效率高。

假设执行的查询操作是:select *  from table_emp;

对于这种查询整个表全部信息的操作,由于列式数据库需要将分散的行进行重新组合,行式数据库效率就高于列式数据库。

但是,在大数据领域,进行全表查询的场景少之又少,进而我们使用较多的还是列式数据库及列式储存。

 

二、Hive中的存储格式

样例:

stored as file_format

create table table_name(

    .....)

    row format...."\t" 

    stored as file_format;

创建一张表时,可以使用“stored as file_format”来指定该表数据的存储格式,hive中,表的默认存储格式为TextFile。

第一种方式:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值