row_number()函数随机排序

数据准备

-- 建表
CREATE TABLE IF NOT EXISTS TEST01.A
(
     ID                   VARCHAR(50)           COMMENT '序号'           -- 01
    ,XID                  VARCHAR(50)           COMMENT '信贷编号'       -- 02
    ,AMT                  INT                   COMMENT '数字'           -- 03
    ,DT                   VARCHAR(50)           COMMENT '日期'           -- 04
)
COMMENT 'A表'
STORED AS PARQUET
;

-- 插数
INSERT INTO TEST01.A(ID,XID,AMT,DT) VALUES ('1','d0m2e6',462,'20220716');
INSERT INTO TEST01.A(ID,XID,AMT,DT) VALUES ('1','e8a5m0',519,'20220716');
INSERT INTO TEST01.A(ID,XID,AMT,DT) VALUES ('1','g0s7h9',323,'20220715');

-- 查数
SELECT T.ID, T.AMT FROM (
    SELECT
           ID,XID,AMT,DT
          ,ROW_NUMBER()OVER(PARTITION BY ID ORDER BY DT DESC) AS RN
    FROM TEST01.A
)T
WHERE T.RN = 1
;

row_number()中分组字段不是最细粒度

SELECT
       ID,XID,AMT,DT
      ,ROW_NUMBER()OVER(PARTITION BY ID ORDER BY DT DESC) AS RN
FROM TEST01.A

查询结果

执行查询语句第1次:

执行查询语句第2次:

结果解析

ID与XID是联合主键,row_number()里面只按ID分组,存在同一ID同一DT有多条数据,按DT降序排序会失效,此时函数会对这多条数据随机排出123名,每执行一次脚本,结果会有差异。

如果外层查询是通过限制WHERE RN=1来取值,那取值结果就会存在随机性。

如何判断row_number()是随机排序

可以用下列方式进行测试:

-- 测试代码
SELECT ID,DT,COUNT(1) FROM TEST01.A GROUP BY 1,2 ORDER BY COUNT(1) DESC;

分组字段排序字段,分组查询,检查是否有重复值,如果有重复COUNT(1)>1,那每次跑数就是随机取值的。

解决方案

三方面思考:

  1. 替换或增加分组字段。
  2. 替换或增加排序字段。
  3. 修改加工逻辑,对于多个取值的情况,如果是数值型,可以采用取最大值或者汇总求和的办法。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值