Hsql排序

最新推荐文章于 2024-10-31 19:52:37 发布

'丘北'

最新推荐文章于 2024-10-31 19:52:37 发布

阅读量366

点赞数

CC 4.0 BY-SA版权

分类专栏： hive 学习文章标签： hive 大数据 hadoop

本文链接：https://blog.youkuaiyun.com/csdnaaaaa1/article/details/128907257

学习同时被 2 个专栏收录

5 篇文章

订阅专栏

hive

3 篇文章

订阅专栏

文章详细介绍了Hive中的四种排序和分区操作：OrderBy用于全局排序，SortBy实现每个Reduce内部排序，DistributeBy控制数据分布到特定Reducer，而ClusterBy则结合了分布和排序功能。这些操作在大数据处理中对于优化查询性能和组织数据至关重要。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.1 全局排序（Order By）

Order By：全局排序，只有一个Reduce。

1）使用Order By子句排序

asc（ascend）：升序（默认）

desc（descend）：降序

2）Order By子句在select语句的结尾

3）基础案例实操

（1）查询员工信息按工资升序排列

hive (default)> 
select 
   * 
from emp 
order by sal;

hive sql执行过程：

（2）查询员工信息按工资降序排列

hive (default)> 
select 
   * 
from emp 
order by sal desc;

4）按照别名排序案例实操

按照员工薪水的2倍排序。

hive (default)> 
select 
   ename, 
   sal * 2 twosal 
from emp 
order by twosal;

hive sql执行过程：

5）多个列排序案例实操

按照部门和工资升序排序。

hive (default)> 
select 
   ename, 
   deptno, 
   sal 
from emp 
order by deptno, sal;

hivesql执行过程：

1.2 每个Reduce内部排序（Sort By）

Sort By：对于大规模的数据集order by的效率非常低。在很多情况下，并不需要全局排序，此时可以使用Sortby。

Sort by为每个reduce产生一个排序文件。每个Reduce内部进行排序，对全局结果集来说不是排序。

1）设置reduce个数

hive (default)> set mapreduce.job.reduces=3;

2）查看设置reduce个数

hive (default)> setmapreduce.job.reduces;

3）根据部门编号降序查看员工信息

hive (default)> 
select 
   * 
from emp 
sort by deptno desc;

hive sql执行过程：

4）将查询结果导入到文件中（按照部门编号降序排序）

hive (default)> insert overwrite localdirectory '/opt/module/hive/datas/sortby-result'
 select * from emp sort by deptno desc;

1.3 分区（Distribute By）

DistributeBy：在有些情况下，我们需要控制某个特定行应该到哪个Reducer，通常是为了进行后续的聚集操作。distributeby子句可以做这件事。distribute by类似MapReduce中partition（自定义分区），进行分区，结合sortby使用。

对于distribute by进行测试，一定要分配多reduce进行处理，否则无法看到distribute by的效果。

1）案例实操：

（1）先按照部门编号分区，再按照员工编号薪资排序

hive (default)> set mapreduce.job.reduces=3;
hive (default)> 
insert overwrite local directory 
'/opt/module/hive/datas/distribute-result'
select 
   * 
from emp 
distribute by deptno 
sort by sal desc;

注意：

distribute by的分区规则是根据分区字段的hash码与reduce的个数进行相除后，余数相同的分到一个区。

Hive要求distribute by语句要写在sortby语句之前。

演示完以后mapreduce.job.reduces的值要设置回-1，否则下面分区or分桶表load跑MapReduce的时候会报错。

hive sql执行过程：

1.4 分区排序（Cluster By）

当distribute by和sort by字段相同时，可以使用clusterby方式。

cluster by除了具有distribute by的功能外还兼具sortby的功能。但是排序只能是升序排序，不能指定排序规则为asc或者desc。

（1）以下两种写法等价

hive (default)> 
select 
   * 
from emp 
cluster by deptno;
 
hive (default)> 
select 
   * 
from emp 
distribute by deptno 
sort by deptno;

注意：按照部门编号分区，不一定就是固定死的数值，可以是20号和30号部门分到一个分区里面去。

hive sql执行过程：