HIVE点滴：group by和distinct语句的执行顺序

最新推荐文章于 2025-11-06 16:19:49 发布

原创最新推荐文章于 2025-11-06 16:19:49 发布 · 5.5k 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#hive #distinct #group by #顺序

HIVE 专栏收录该内容

3 篇文章

订阅专栏

本文通过Hive SQL的实际操作验证了当一条语句中同时包含Group By和Distinct时，其执行顺序是先进行Group By再进行Distinct。并通过具体的例子展示了这种顺序如何影响查询结果。

同一条语句之中，如果同时有group by和distinct语句，是先group by后distinct，还是先distinct后group by呢？

先说结论：先group by后distinct。

以下是在HIVE中的验证：

1）建表：其中xxx替换为本地目录名

create external table tmp_tb(
id int,
content int
) row format delimited
fields terminated by ','
stored as textfile
location '/tmp/xxx';

2）从tmp_tb文件中导入数据

load data
local inpath '/home/xxx/tmp_tb'
overwrite into table tmp_tb;

tmp_tb内容：

1,5

2,6

2,5

3,6

3）仅有group by时：

select id, count(content)
from tmp_tb
group by id;

结果如下：

1 1

2 3

3 1

4）同时有group by和distinct时：

select id, count(distinct content)
from tmp_tb
group by id;

结果如下：

1 1

2 2

3 1

可见，同时有group by和distinct时，显然是先group by 后distinct。如果是先distinct，后group by，则结果应该只有两条记录，因为content只有5和6两种数值。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

峰峰jack

关注关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Hive 去重性能对比：GROUP BY vs DISTINCT

2401_83088008的博客

03-16

1123

在无聚合函数的去重场景下，GROUP BY 的性能显著优于 DISTINCT，因为它可以直接在 Map 端完成去重操作，减少了数据传输和处理开销。在需要进行聚合计算的场景下，GROUP BY 是唯一的选择，并且可以通过开启 Map 端聚合功能来优化性能。数据倾斜是 Hive 性能优化中需要重点关注的问题，可以通过 DISTRIBUTE BY 语句、添加随机前缀和使用分桶表等方法来缓解数据倾斜问题。

Hive去重：distinct与group by

张之海的博客

06-02

3069

Hive对数据去重有两种方法：(1) distinct (2) group by 本文介绍distinct、group by在去重时底层的执行逻辑、数据处理原理，并介绍在不同场景下，应采用哪种方法去重。

1 条评论您还未登录，请先登录后发表或查看评论

1 条评论

go ahead！@ 2022.05.18
错了，兄弟

hive中distinct和group by

大王来巡山的博客

07-05

2011

SELECT COUNT(DISTINCT USER_ID) FROM STU上述sql会将所有USER_ID都shuffle到一个reduce中，如果数据量很大时，速度会变慢。SELECT COUNT(*) FROM （SELECT USER_ID FROM STU GROUP BY USER_ID）上述sql会根据group by 分组的结果产生多个reduce，然后并行执行，数据量很大时速度...

group by和distinct的执行顺序

小馒头味的博客

04-22

1359

同时有group by和distinct时，先group by 后distinct

Hive 中 group by 和 distinct的区别

最新发布

走过冬季

11-06

284

DISTINCT本质是GROUP BY的语法糖，在 Hive 中性能相当或略差；而GROUP BY更灵活、可优化、支持聚合，是生产环境的首选。尤其对于，应主动改写为子查询 +GROUP BY避免性能灾难。

DISTINCT 和 TOP合用的执行顺序

weixin_34245749的博客

10-28

248

DISTINCT 和 TOP合用，谁先起作用？实验： IF (OBJECT_ID('tempdb..#tmp_a')) IS NOT NULLDROP table #tmp_a CREATE table #tmp_a (a int) insert into #tmp_a select 1insert into #tmp_a select 2insert into #tmp_a selec...

distinct、 join on、where、group by、having、order by执行顺序

xiaouncle的博客

04-16

2774

执行顺序：from > on > where > group by > having > select > distinct > order by > top一个完整的Sql语句样例如下：(8)SELECT (9)DISTINCT (11)Top <num> <select_list> (1)FROM [left_table] (3)<join_type> JOIN <right_table>

SQL中distinct、limit的执行顺序

qq_37567215的博客

08-13

705

对于Sql语句虽然是基础，来是要多多写，多多去分析，多多去理解。

深度剖析Hive GroupBy，Distinct 与 Join 原理

Mr.pan felix的专栏

07-30

1604

Hive 中的 GroupBy, Distinct 和 Join GroupBy 几种 Mode 原理相关参数 Distinct Single Distinct Multi Distinct Join Common Join Map Join——Hive MapJoin 优化历程、FaceBook Join优化 Skew Join——Skewed Join Optimization Bucket Join 本文将介绍 Hive GroupBy，Distin

hive优化之distinct转group by实战

cclovezbf的博客

12-29

1316

说明：一个公司有多个业务biz_id，每个业务收款的时候通过不同或者相同的account去收款业务需要需要计算出该公司有过滤重复后biz_count 和过滤重复后的account_count 1先来个distinct ，占用内存，容易oom，所以一般都会把distinct改为group by select company_name,count(distinct biz_id),count(distinct account_id) from odsiadata.ia_fdw_b_profi..

Hive优化:Hive的执行计划、分桶、MapJoin、数据倾斜

m0_70882914的博客

10-18

1584

Hive优化:Hive的执行计划、分桶、MapJoin、数据倾斜

SQL练习：第二高的薪水——Distinct 和 Limit 的执行顺序

woooooood的博客

06-22

2266

题目：第二高的薪水——LeetCode 官方答案解析 /* Write your T-SQL query statement below */ select max(Salary) as "SecondHighestSalary" from Employee where Salary < (select max(Salary) from Employee) SELECT IFNULL( (SELECT DISTINCT Salary FROM Employee

MS SQL 中 SQL 执行顺序

acpgil1836的博客

05-10

153

通常一个 SQL 执行会拆开若干步骤依次进行，不同的执行顺序，其结果有差异。整理了 MS SQL select , top , distinct , where , group by , order by 执行顺序。文字描述: --8)SELECT(9)DISTINCT(11)<TOP_specification>...

浅析Hive的group by和count（distinct）

DM_Source的博客

05-08

1万+

首先，Hive的group by和count（distinct）都是去除重复的数据，某种程度上来说，两者产生的结果是一样的。实例代码：select a,count(distinct b) from t group by aselect tt.a,count(b) from (select a,b from t group by a,b)tt group by tt.a 上面两...

关于hive on spark的distribute by和group by使用以及小文件合并问题

weixin_43272605的博客

01-25

4047

问题导言最近在使用hive时，发现一些任务的因为使用mapreduce的缘故，跑的太慢了，才几十个G的数据就经常跑一个多小时，于是有了切换spark的想法。但是刚刚切换了spark，第二天发现跑出来的数据文件数大大增加，而且每个文件都非常小，导致下游spark任务为了每个小文件都启动一个task，申请资源对于spark来说是非常消耗资源的，任务又大大延迟了。查了下关于spark合并小文件，目前有几个参数会提供参考。输入端 set mapred.max.split.size=256000000; 设

Mysql语句执行顺序

qq_45196580的博客

06-06

202

2)group by执行后(有聚合函数)，group by后面的字段在结果中一定是唯一的，也就不需要针对这个字段用distinct；1)使用distinct要写在所有要查询字段的前面，后面有几个字段，就代表修饰几个字段，而不是紧随distinct的字段；join（如left join）

distinct与group by 去重

weixin_44792849的博客

12-25

6419

distinct简单来说就是用来去重的，而group by的设计目的则是用来聚合统计。单纯的去重操作使用distinct，速度是快于group by的。distinct 是针对要查询的全部字段去重，而 group by 可以针对要查询的全部字段中的部分字段去重，它的作用主要是：获取数据表中以分组字段为依据的其他统计数据。两者执行方式不同，distinct主要是对数据两两进行比较，需要遍历整个表。

distinct 使用