利用pandas中groupby解决分组对象的组内排序问题

本文详细介绍如何使用Pandas库对DataFrame数据进行分组(groupby)及排序(sort_values),并结合实例展示了如何选取每组中特定列的Top-K行数据。通过对比两种常见方法,即先分组再排序和先排序后分组,文章总结了更高效的数据处理流程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

问题:根据数据某列进行分组,选择其中另一列大小top-K的的所在行数据
解析:求解思路很清晰,即先用groupby对数据进行分组,然后再根据分组后的某一列进行排序,选择排序结果后的top-K结果

案例:取一下dataframe中B列各对象中C值最高所在的行

df = pd.DataFrame({"A": [2, 3, 5, 4], "B": ['a', 'b', 'b', 'a'], "C": [200801, 200902, 200704, 201003]})

Groupby的基本功能介绍

  • groupby以后返回DataFrameGroupBy对象,实际上还没有进行任何计算,只是一个暂时存储的容器,
[In]df.groupby('B')
[Out]<pandas.core.groupby.DataFrameGroupBy object at 0x11800f588>
  • 对groupby结果进行简单的列选取返回的也是DataFrameGroupBy/SeriesGroupBy对象,无法可视化
[In]df.groupby('B')['A']     # 返回SeriesGroupBy对象
[Out]<pandas.core.groupby.SeriesGroupBy object at 0x117f6b630>

[In]df.groupby('B')['A','C']     # 返回DataFrameGroupBy对象
[Out]<pandas.core.groupby.DataFrameGroupBy object at 0x117fb84e0>
  • 需要对DataFrameGroupBy进行计数、统计、agg聚合计算、apply映射计算和transform等操作,才能生成可视化的数据(下文仅以count和size函数为例展示,不涉及其它的操作)
[In] df.groupby('B', as_index=False)['A'].count()   # 组内数据统计
[Out]	B	A
	0	a	2
	1	b	2

[In] df.groupby('B')['A'].size().reset_index(name='Size')  # 组内数据统计,size和count的一个显著区别在于count不考虑Nan,size考虑Nan
[Out] B	Size
 0	  a  2
 1	  b	 2

解决方案一:对DataFrameGroupBy对象,用apply函数进行某列的sort_values排序,再选出其中的最大值所在行

# 返回值是一个带有multiindex的dataframe数据,其中level=0为groupby的by列,而level=1为原index
[In] df.groupby('B').apply(lambda x: x.sort_values('C', ascending=False))
[Out] 	A	B	C
B				
a	3	4	a	201003
	0	2	a	200801
b	1	3	b	200902
	2	5	b	200704

# 通过设置group_keys参数对multiindex进行优化
[In] df.groupby('B', group_keys=False).apply(lambda x: x.sort_values('C', ascending=False))
[Out]	A	B	   C
	3	4	a	201003
	0	2	a	200801
	1	3	b	200902
	2	5	b	200704

# 再次groupby,并调用内置的first()方法,取最大值
[In] df.groupby('B', group_keys=False).apply(lambda x: x.sort_values('C', ascending=False)).groupby('B').first().reset_index()
[Out]   B	A	   C
	0	a	4	201003
	1	b	3	200902

解决方案二:先对B进行整体的sort_values,在groupy取值

[In] df.sort_values('C', ascending=False).groupby('B').first().reset_index()
[Out]   B	A	   C
	0	a	4	201003
	1	b	3	200902

问题拓展: 以上仅解决了Top-1的问题,如果是Top-k呢?
答案:将first()函数变为head()函数

[In] df.sort_values('C', ascending=False).groupby('B').head(2)
[Out] 	A	B	C
	3	4	a	201003
	1	3	b	200902
	0	2	a	200801
	2	5	b	200704

总结

  1. 方案二,即先排序再groupby取值更方便
  2. pandas中API众多,在实际使用时要捋清各步骤返回值的类型以方便记忆和联想
### 使用 Pandas Groupby 后对数据进行排序 当使用 `pandas` 进行 `groupby` 操作后,可以通过多种方法来实现对数据的排序。一种常见的方式是在应用聚合函数之前先定义好排序逻辑。 对于单列或多列分组后的对象,可以直接调用 `.sort_values()` 方法来进行排序操作[^1]: ```python import pandas as pd df = pd.DataFrame({ 'col1': ['a', 'b', 'c', 'a', 'b', 'c'], 'col2': [1, 2, 3, 4, 5, 6], 'value': range(6) }) # 对 col1 列进行分组,并基于 value 列降序排列每内的记录 sorted_groups = df.groupby('col1').apply( lambda x: x.sort_values(by='value', ascending=False)).reset_index(drop=True) print(sorted_groups) ``` 上述代码展示了如何通过 `apply()` 函数结合匿名函数(lambda),针对每一个由 `col1` 定义的不同子集内部依据 `value` 字段完成从大到小的排序过程[^2]。 如果希望在整个表格层面保持原有索引结构不变的情况下只调整各小成员间的相对位置,则可以在 `groupby().transform()` 中利用辅助列保存排名信息再做最终的整体排序处理[^3]: ```python # 添加临时rank列用于存储每个元素在其所属中的排名情况 df['rank'] = df.groupby(['col1'])['value'].rank(method='first', ascending=False) # 根据原始index以及新加入的rank字段共同决定整体顺序 final_sorted_df = df.sort_values(['col1', 'rank']).drop(columns=['rank']) print(final_sorted_df) ``` 此外,在某些特定场景下可能还需要考虑时间序列等因素的影响,这时可以借助于更复杂的自定义排序规则或是额外引入其他库的支持来满足需求[^4]。
评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值