订单表order，字段有：order_id(订单ID), user_id(用户ID),amount(金额), pay_datetime(付费时间),channel_id(渠道ID),dt(分区字段)

最新推荐文章于 2024-03-08 08:25:20 发布

原创最新推荐文章于 2024-03-08 08:25:20 发布 · 8.4k 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#sql #大数据

本文介绍了如何在Hive中创建表，包括分区和格式设置，并通过SQL查询分析2021年8月4日的数据，如订单数量、用户量和总金额。还探讨了发现订单数据重复的原因，推测可能源于数据迁移错误。

1）在Hive中创建这个表

create external table order(
    order_id int,
    user_id int,
    amount double,
    pay_datetime timestamp,
    channel_id int
) partitioned by (dt string)
row format delimited fields terminated by '\t';

2）查询dt=‘2021-08-04‘里每个渠道的订单数，下单人数（去重），总金额

select channel_id,
       count(order_id) `订单数`,
       count(distinct user_id) `下单人数`,
       sum(amount) `总金额`
from order
where dt = '2021-08-04'
group by channel_id

3）查询dt=‘2021-08-04‘里每个渠道的金额最大3笔订单

select channel_id,
       order_id,
       amount,
       rank
from (
    select channel_id,
           order_id,
           amount,
           rank() over(partition by channel_id order by amount desc) `rank`
    from order
    where dt = '2021-08-04'
    group by channel_id,order_id,amount
) t1
where t1.rank <= 3

4）有一天发现订单数据重复，请分析原因