Hive学习之数据去重

最新推荐文章于 2024-05-04 17:37:22 发布

weixin_30877227

最新推荐文章于 2024-05-04 17:37:22 发布

阅读量194

点赞数

CC 4.0 BY-SA版权

文章标签：大数据

原文链接：http://www.cnblogs.com/sunfie/p/7531293.html

本文介绍了在Hive中如何实现表内的除重操作，利用row_number()窗口函数结合子查询来达到去除重复记录的目的，并给出了具体的SQL示例。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

insert overwrite table store  
  select t.p_key,t.sort_word from   
    ( select p_key,  
           sort_word ,  
           row_number()over(distribute by p_key sort by sort_word) as rn  
     from store) t  
     where t.rn=1;

　　Hive上一个典型表内除重的写法， p_key为除重依据， sort_word 为排序依据，一般为时间 rn为排名。这里就留下第一名，注意hql 方言中，表的嵌套要家别名，字段前加上表别名。 union all 不支持顶层视图,用一个实际中的案例做示例：

select * from (
    select * , row_number() over ( partition by name order by num ) as num from xxcx.table
    where dateday = '20170919' 
) where num = 1