概述
在hive中,去重操作主要有两种:
- distinct
- group by
ditinct
该关键字的存在,决定了是否要去除重复的行。(有distinct,意味着取出规定的重复的行)
【去重规则】需要指出的是,去重的规则是根据后面的关键字进行的,比如:
- 如果col1,col2同时重复才会去重。即 col1重复 & col2 重复 –> 去重。
SELECT distinct col1, col2 FROM t1;
【必须修饰投影的全部字段】在一个select语句中,distinct一旦出现,那么一定得是修复全部选择的字段的。
正确的写法:
SELECT distinct col1, col2 FROM t1;
错误写法:(解析时报错,不符合语法规则)