Hive去重复数据

最新推荐文章于 2022-10-25 00:16:13 发布

原创最新推荐文章于 2022-10-25 00:16:13 发布 · 1.1k 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#Hive

记录点滴专栏收录该内容

26 篇文章

订阅专栏

Hive数据去重

insert overwrite table store  
  select t.p_key,t.sort_word from   
    ( select p_key,  
           sort_word ,  
           row_number() over(distribute by p_key sort by sort_word) as rn 
     from store) t  
     where t.rn=1;

说明：
[list]
[*]p_key为去重所依据的key，sort_word表示多个p_key的排列顺序，这个关键字将决定哪个p_key将留下。
[*]t 为子查询的别名，Hive需要在每个子查询后面加别名
[*]t.rn=1表示重复的数据只保留第一个。
[*]distribute by 关键字指定分发的key，同一个key将分发到同一个reducer
[*]sort by 是单机范围内排序，因此配合distribute by 就可以对某一个关键字排序
[/list]
参考：
[url="http://www.alidata.org/archives/622"]写好Hive 程序的五个提示[/url]
[url="http://blog.youkuaiyun.com/limao314/article/details/14126391"]Hive 典型的中表内数据除重写法[/url]