Hive 知识点八股文记录 ——（三）区别和原理

原创已于 2025-10-12 16:52:48 修改 · 587 阅读

CC 4.0 BY-SA版权

文章标签：

于 2025-01-24 16:27:41 首次发布

3 篇文章

订阅专栏

区别

order by：全局排序，只有一个reduce（多个reduce无法保证全局有序
sort by：非全局排序，reduce前进行排序。
- 因此 mapped. reduce. tasks >1， sort by只会保证每个 reducer的输出有序，并不保证全局有序
- 实现全局排序：先用 sortby保证每个 reducer输出有序，再order by归并reduce
distribute by: 在map端拆分数据给 reduce端. hive 根据distribute by的列，对reduce个数分发，默认hash算法
- （sort by为每个reduce产生排序文件，但有时候你需要空值某个行到特定的reduce）
- hive规定distribute by 语句要写在sort by语句之前，两者配合使用
cluster by：当distribute by 和 sort by 所指定的字段相同时，即可以使用cluster by（列只能是升序，不能指定asc和desc

建表指定分隔符

CREATE TABLE mytable (col1 STRING, col2 STRING, col3 STRING)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ',';

加载数据指定分隔符

LOAD DATA LOCAL INPATH '/path/to/data.txt' INTO TABLE mytable
FIELDS TERMINATED BY ',';

概念

分区	分桶
大表存储的时候根据不同数据作为目录来存储。一级目录：单分区表；多级目录：多分区表非最终分区表不能存数据	hive表按hash值分为多个桶，让数据均匀分布到多个桶中提高查询性能。

他们并不互斥，存储格式有差别

作用？

分区	分桶
数据分为小块，提高查询性能	提高Join查询的效率，在一份数据会被经常用来做连接查询的时候建立分桶表，分桶字段就是连接字段

两者一起使用的结果

partition by 只能和 order by 组合使用

distribute by 只能和 sort by 使用

left join：展示左表和右表的所有字段，如果右表没有匹配的记录，右表的字段值为NULL。

left semi join：仅展示A表与B表匹配的记录，并且只展示A表字段，因为left semi join只传递表的join key给Map阶段（

A表：

B表：

SELECT A.id, A.name, B.age
FROM A
LEFT JOIN B ON A.id = B.id;

结果：

SELECT A.id, A.name
FROM A
LEFT SEMI JOIN B ON A.id = B.id;

结果：

id	name
2	Bob
3	Carol

分组聚合：GROUP BY语句通常与聚合函数（如SUM、COUNT、AVG等）一起使用，用于对数据进行分组并计算聚合结果
归并操作：通过MapReduce或Tez任务来执行的。任务中，数据需要在不同的节点之间进行归并操作，以将相同键值的数据合并在一起。GROUP BY字段进行排序可以提高合并效率
优化查询性能：相同的键值的数据会被连续地存储在磁盘上，这样可以减少磁盘I/O的次数，提高查询的效率

group by 默认全局，可以用DISTRIBUTE BY和SORT BY语句来实现分布式排序，将排序的负载分散到不同的节点上