[Pandas技巧] Pandas实现SQL中的ROW_NUMBER()功能

山茶花开时。

已于 2023-05-22 22:10:00 修改

阅读量1.8k

点赞数 7

分类专栏： Pandas 文章标签： python pandas

于 2022-07-14 21:15:40 首次发布

本文链接：https://blog.youkuaiyun.com/Hudas/article/details/125789970

版权

Pandas 专栏收录该内容

56 篇文章

订阅专栏

本文介绍了如何利用Pandas在Python中对数据框进行分组，并根据需求对某列数值进行排序，同时新增字段记录排名情况。通过示例代码展示了如何应用`groupby`和`rank`方法，以及后续的排序操作，确保排名字段的正确性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在最近的需求开发中，涉及到利用Pandas对某列数值进行分组排序，并新增字段用于记录排名情况(类似于Mysql当中的窗口函数ROW_NUMBER()功能)，特此记录该篇文章帮助有需要的人，同时也方便日后的学习复盘

代码如下所示:

import pandas as pd

df = pd.DataFrame({'material':['C622203800-025', 'C622203800-025', 'C622203800-025', 'C622203800-025', 'C622203800-025','A112233','A112233','B456','B456'],
                   'product_number':['84-0086-03','85-0018-00','84-0089-05','83-0402-05','83-0433-05','AB','BC','CD','EF'],
                   'Q2_Demand':[912,1200,14226,48,0,123,456,250,15],
                   'Q2 Total Supply':[50020, 50020, 50020, 50020, 50020,1000,1000,200,200]})

问题: 新增'Q2_Priority'字段，针对'Q2_Demand'的数量多少，按material分组进行排名

# 新增Q2_Priority字段
df['Q2_Priority'] = df.groupby('material')['Q2_Demand'].rank(ascending=1,method='first').astype(int)

新增字段'Q2_Priority'后的df

从上图可看出按material分组进行排名，字段'Q2_Priority'的值毫无顺序规律，为此进行如下操作:

# 按字段'material','Q2_Priority'排序
df = df.sort_values(by = ['material','Q2_Priority'])

处理过后的df