【hive】去重操作

本文介绍了在Hive中进行去重操作的方法,主要讨论了distinct和group by的使用。distinct关键字用于去除重复行,遵循全字段去重规则,而group by则更偏向于统计和汇总,支持与聚合函数结合使用,并且在group by语句中,所有非聚合字段都必须在group by子句中出现。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

概述

在hive中,去重操作主要有两种:
- distinct
- group by

ditinct

该关键字的存在,决定了是否要去除重复的行。(有distinct,意味着取出规定的重复的行

【去重规则】需要指出的是,去重的规则是根据后面的关键字进行的,比如:

  • 如果col1,col2同时重复才会去重。即 col1重复 & col2 重复 –> 去重
SELECT distinct col1, col2 FROM t1;

【必须修饰投影的全部字段】在一个select语句中,distinct一旦出现,那么一定得是修复全部选择的字段的。
正确的写法:

SELECT distinct col1, col2 FROM t1;

错误写法:(解析时报错,不符合语法规则)

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值