hive中 Sort By，Order By，Cluster By，Distrbute By区别

最新推荐文章于 2024-07-29 09:03:07 发布

程序员的三板斧

最新推荐文章于 2024-07-29 09:03:07 发布

阅读量612

点赞数

分类专栏： hive 文章标签： hive 大数据

本文链接：https://blog.youkuaiyun.com/weixin_38221481/article/details/124065502

版权

hive 专栏收录该内容

3 篇文章

订阅专栏

本文详细介绍了Hadoop MapReduce中用于数据排序和分布的四个关键操作：orderby全局排序可能导致计算时间增长，sortby仅在reducer内部排序，distributeby按指定字段划分数据到不同reducer，而clusterby同时具备distributeby和sortby功能。通过示例代码展示了如何在Hadoop SQL中应用这些操作。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

order by：会对输入做全局排序，因此只有一个reducer（多个reducer无法保证全局有序）。只有一个reducer，会导致当输入规模较大时，需要较长的计算时间。
sort by：不是全局排序，其在数据进入reducer前完成排序。
distribute by：按照指定的字段对数据进行划分输出到不同的reduce中。
cluster by：除了具有 distribute by 的功能外还兼具 sort by 的功能。

代码：

CREATE TABLE `person`(
  `id` int,
  `name` string,
  `address` string);
insert into person values(1, 'lisi', 'beijing');
insert into person values(2, 'zhangsan', 'chengdu');
insert into person values(3, 'wangwu', 'shanghai');
insert into person values(4, 'zhaoliu', 'guangzhou');
insert into person values(5, 'name5', 'beijing');

-- order by会对查询结果执行一个全局排序，reducer的数量是1。因此这个过程可能会很漫长。
explain insert overwrite local directory '/root/order-by-result' select *
from person order by id asc ;

-- sort by只会对reducer中进行排序,局部排序
set mapreduce.job.reduces=3;
explain insert overwrite local directory '/root/sort-by-result' select * from person sort by id desc;

-- distribute by 控制mapper中的输出在 reducer 中是如何进行划分的，使用distribute by可以保证相同key的记录被划分到一个reducer中
insert overwrite local directory '/root/distribute-by-result' select * from person distribute by id  sort by address;

-- cluster by结果和上面一样,修改了sort by后面的好像也不影响查询结果,默认是升序,不可改变顺序
insert overwrite local directory '/root/cluster-by-result' select * from person cluster by id ;