作业0403

本文详细介绍了Hive中的几种存储格式,包括TEXTFILE、SEQUENCEFILE、RCFile和ORCFile以及Parquet,分析了它们的特性和适用场景。同时,讨论了如何通过避免特定查询模式来减少MapReduce的使用,如全表扫描、只使用分区字段的查询以及启用本地模式。这些策略有助于提升Hive查询效率。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1.STORED AS的含义

(1)其中TEXTFILE为默认格式,建表时不指定默认为这个格式,导入数据时会直接把数据文件拷贝到 hdfs 上不进行处理;

(2)sequencefile

二进制文件,以<key,value>的形式序列化到文件中;
存储方式:行存储;
可分割 压缩;
一般选择block压缩;
优势是文件和Hadoop api中的mapfile是相互兼容的

(3)refile

存储方式:数据按行分块 每块按照列存储;
压缩快 快速列存取;
读记录尽量涉及到的block最少;
读取需要的列只需要读取每个row group 的头部定义;
读取全量数据的操作 性能可能比sequencefile没有明显的优势,

(4)orcfile

存储方式:数据按行分块 每块按照列存储;

压缩快 快速列存取;

效率比rcfile高,是rcfile的改良版本。

(5)parquet 
类似于orc,相对于orc文件格式,hadoop生态系统中大部分工程都支持parquet文件。


2.hive哪些操作会产生MapReduce?

避免产生MR的三种方式:

1.全表扫描,不加where子句

2.where子句只有分区字段

3.设置hive.exec.mode.local.auto=true

hive会尽量使用本地模式查询

其余的所有查询都会转换成mr

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值