hive hsq中的group by & Distribute by & partition by & cluster by & partitioned by & clustered by

最新推荐文章于 2024-12-06 13:57:55 发布

原创

最新推荐文章于 2024-12-06 13:57:55 发布 · 1k 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#hive #大数据 #hadoop

group by & partition by & Distribute by 首先一定要记住group by分组之后是会组内聚合的而后两者仅仅是分组了，并未有聚合操作

partition by是分区 Distribute by 可以理解为分簇

partition by是分区区内排序用order by

Distribute by 可以理解为分簇簇内排序用sort by 另外当 distribute by 和 sorts by 后的字段相同时，可以使用 cluster by 方式

partitioned by (分区名 string) 按所分区名分区建表使用
clustered by(列名) 按列分桶建表使用

over中partition by和distribute by区别：

1）partition by [key..] order by [key..]只能在窗口函数中使用，而distribute by [key...] sort by [key...]在窗口函数和select中都可以使用。

2）窗口函数中两者是没有区别的

3）where后面不能用partition by

order by

order by 会对数据进行全局排序,和oracle和mysql等数据库中的order by 效果一样，它只在一个reduce中进行所以数据量特别大的时候效率非常低。

distribute by

DISTRIBUTE BY 是控制在map端如何拆分数据给reduce端的。hive会根据distribute by后面列，对应reduce的个数进行分发，默认是采用hash算法。

sort by

sort by为每个reduce产生一个排序文件。在有些

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

hengdeveloper

关注关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

hive，order by ,distribute by ,sort by ,cluster by 区别，作用，用法

Top5软件工程硕士，先后在京东、字节从事多年Java后端开发、实时和离线大数据开发

06-29

2085

0 order by 是全局有序。sort by是在一个reduce中排序，该reduce的输出有序，是局部有序。distriute by c1 是作用于map输出的结果，把c1的值相同的记录输入到同一个reduce中；如果reduce数目比较少，c1多个不同值的记录会输入到同一个reduce中。 1distribute by要写在sort by前面，不然报错 2distribute by c1,c2sort by c1,c2 = cluster by c1,c2 ，注意distribute by...

hive中order by 、sort by、distribute by、cluster by、group by操作

Enzo的探索之路

12-11

4746

order by 对输入做全局排序，因此只有一个reducer，会导致当输入规模较大时，需要较长的计算时间。 SELECT * FROM db_hive.employee ORDER BY empID desc; //按照empID降序排列 sort by 不是全局排序，其在数据进入reducer前完成排序。因此，如果用sort by进行排序，并且设置mapreduce.job.redu...

1 条评论您还未登录，请先登录后发表或查看评论

Hive求topN

RayfunC的博客

12-31

1188

select t2.* from( select pid,uid,cnt,row_number() over (partition by pid order by cnt desc ) as rank from ( select pid,uid,count(uid) as cnt from visit2 group by pid,uid order by pid,cnt desc ) as t1 ) as t2 where t2.r.

hive中连续N天登录问题、topN问题、拉链表实现

weixin_44870066的博客

11-25

3590

hive中连续N天登录、topN问题、拉链表

Hive常见的计算(连续纸，topN，行专列，列转行)

zhang5324496的博客

05-24

2063

hive 面试sql 连续值 topN 行转列列转行 json解析 jsont_uple get_json_object

hive中的distribute By

热门推荐

朝着梦想渐行前进

05-26

1万+

hive中的distribute By

Hive中orderBy，sortBy，distribute by，cluster by，group by

weixin_44844089的博客

05-22

2198

首先我们要明白Hive的本质是将HiveSQL转成MapReduce来执行分布式计算的，和普通单机程序不同的一个特点就是最终的数据会产生多个子文件，每个reducer节点都会处理partition给自己的那份数据产生结果文件，这导致了在Hadoop环境下很难对数据进行全局排序，如果在Hadoop上进行order by全排序，会导致所有的数据集中在一台reducer节点上，然后进行排序，这样很可能会超过单个节点的磁盘和内存存储能力导致任务失败。因此OrderBy会导致全局排序。解决方案就是放弃全局排序，使用

Hive 中 Order By、Sort By、Cluster By 和 Distribute By 的详细解析

qq_68076599的博客

12-06

2224

在 Hive 数据查询与处理操作中，Order BySort ByCluster By和这些语句对于数据的排序、分区以及在 Reduce 阶段的处理起着关键作用。本文将详细解析它们各自的语法、区别以及一些使用要点，帮助大家深入理解并正确运用这些功能。

Hive 区分cluster by、distribute by ＋ sort by、order by以及创建表带有clustered by和sort by

weixin_55953732的博客

10-27

1247

Hive 区分cluster by、distribute by ＋ sort by、order by以及创建表带有clustered by和sort by 本文主要根据一些具体SQL实例来介绍说明cluster by、distribute by ＋ sort by和order by的区别。同时通过实例说明create table指定clustered by 和sort by。 create table table(c1 int,c2 int,c3 int); insert into table dual

hive中，cluster by为什么会出现？有什么意义？有什么用处？有什么应用场景？

慢慢来

05-20

7381

             前段时间，因为项目原因，了解了cluster by，顺路写了一篇博客：HIVE中，cluster by有什么意义。然后底下有人回复：假如100个专业分了10个区，那么每一个区里都应该会有不同的专业。但反过来说，真正的mr 并没有完全按专业分区，如果完全的话那应该是100个区。问题是结果只有10个区，这么做意义的结果总结一下应该是：cluster by 的字段只是参

Hive TopN+分组TopN

u014033218的专栏

08-10

1075

TopN 可以通过sort by limit N 来实现比通过order by limit N 来实现要快得多个人感觉sort by使用的时候如果能合理使用distribute by的话会更均衡一些 sort by可以启动多个reduce，每个reduce做局部排序，但是这对于sort by limit N已经够用了。第一个JOB是在每个reduce中做局部排序，然后分别取TOP N

hive 分组取TopN

07-10

hive不直接支持分组取TopN的操作，需要自定义udf函数打成jar包添加到hive运行环境中

Hive：distribute by与group by，order by与sort by , cluster by的区别

雾岛与鲸的博客

09-28

3974

distribute by与group by，order by与sort by , cluster by的区别distribute by与group by 的区别order by与sort by 的区别cluster by distribute by与group by 的区别都是按key值划分数据都使用reduce操作唯一不同的是，distribute by只是单纯的分散数据，distribute by col – 按照col列把数据分散到不同的reduce。而group by把相同key的数据聚集

Hive TOP N 实现方法

weixin_33713707的博客

08-11

1204

2019独角兽企业重金招聘Python工程师标准>>> ...

Hive 电影topN

做一个好人

09-01

717

数据： {"movie":"1193","rate":"5","timeStamp":"978300760","uid":"1"} {"movie":"661","rate":"3","timeStamp":"978302109&quot

Hive实现topN

qq_40727267的博客

09-21

1002

一、需求查询每个产品top3的用户信息，初始数据表如下 uid pid user9 e user2 a user14 e user6 b user12 a ... ... ... ... 二、实现 #每个产品对应的每个用户的浏览量 select pid,uid,count(uid) as cnt from visit2 group by pid,uid order b...

Hive-distribute by与group by，order by与sort by 的区别，cluster by

ALX3li的博客

04-14

940

涉及排序的函数的差异描述

hive 分组topN

qq_38250124的博客

05-15

426

select id,sex,age,hobby from t1 group by sex order by agerow_number() over (partition by sex order by age asc) as od;select * from t_tmp where od&gt;3row_number为hive内置函数，partition 按哪一组分...

hive中 partition by和distribute by区别

最新发布

11-24