pandas groupby 分组取每组最大或最小的topN条记录

最新推荐文章于 2022-12-07 16:45:23 发布

转载最新推荐文章于 2022-12-07 16:45:23 发布 · 1.7w 阅读

python 专栏收录该内容

61 篇文章

订阅专栏

本文转自这里

直接上例子。

import pandas as pd
df = pd.DataFrame({'class':['a','a','b','b','a','a','b','c','c'],'score':[3,5,6,7,8,9,10,11,14]})

df:
    class   score
0   a   3
1   a   5
2   b   6
3   b   7
4   a   8
5   a   9
6   b   10
7   c   11
8   c   14

df.sort_values(['class','score'],ascending=[1,0],inplace=True)
grouped = df.groupby(['class']).head(2)

grouped:
    class   score
5   a   9
4   a   8
6   b   10
3   b   7
8   c   14
7   c   11

---------------------
作者：徐三少北
来源：优快云
原文：https://blog.youkuaiyun.com/uvyoaa/article/details/79157786
版权声明：本文为博主原创文章，转载请附上博文链接！

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

chenpe32cp

关注关注

9
点赞
踩
22

收藏

觉得还不错? 一键收藏
2
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

使用Pandas获取DataFrame中值最大的几行

QromMatlab的博客

09-21

686

函数从DataFrame中获取了薪资（Salary）和工作经验（Experience）两列中值最大的两行，并将结果存储在。在上面的代码中，我们首先创建了一个示例DataFrame，其中包含了员工的姓名、年龄和薪资信息。在上面的代码中，我们创建了一个示例DataFrame，其中包含了姓名、年龄、薪资和工作经验信息。函数从DataFrame中获取了薪资（Salary）列中值最大的两行，并将结果存储在。函数分别打印了原始的DataFrame和值最大的两行，以便进行对比和验证。函数获取值最大的几行。

Pandas使用sort_values和groupby函数获取每个分组最小的N行数据

m0_47037246的博客

04-24

640

在数据处理中，我们经常需要对数据进行排序和分组操作。Pandas提供了许多方便的函数来满足我们的需求。本篇文章将介绍如何使用sort_values和groupby函数获取每个分组数值最小的前N行数据。通过sort_values和groupby函数，我们可以轻松实现按照分组获取每个分组数值最小的前N行数据。Pandas使用sort_values和groupby函数获取每个分组最小的N行数据。通过这段代码，我们可以看到每个分组数值最小的前两行数据。

2 条评论您还未登录，请先登录后发表或查看评论

2 条评论

黄桃干 2020.10.09
谢谢，有用

任 Luna 2020.02.06
这种方法挺好的,点赞

python 如何自动提取一列的最大和最小日期，并计算相差的月份

积少成多

08-08

1492

提取列最大与最小日期，并计算相差月份N

拯救pandas计划（5）——获取DataFrame分组topN数据

pdcfighting的博客

04-15

1315

拯救pandas计划（5）——获取DataFrame分组topN数据最近发现周围的很多小伙伴们都不太乐意使用pandas，转而投向其他的数据操作库，身为一个数据工作者，基本上是张口pandas，闭口pandas了，故而写下此系列以让更多的小伙伴们爱上pandas。系列文章说明：系列名（系列文章序号）——此次系列文章具体解决的需求平台：windows 10python 3....

pandas Series/DataFrame获取n个最大值(largest values)和n个最小值((smallest values))

陈新明博客

06-12

2万+

使用pandas时，想要获取一个序列中最大的N个值，和最小N个数值经过查阅，pandas自带两个方法可以直接获取最大：nlargest和最小：nsmallest。 nlargest https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.nlargest.html#pandas.Series.nlargest nsmallest https://pandas.pydata.org/pandas-docs/s

python group by 之后怎么取 top n ？？

YmeBtc的博客

08-21

936

每天一点点，记录工作中实操可行 python group by 之后怎么取 top n ？？创建一个DataFrame df5 = pd.DataFrame({"city":["上海","杭州","苏州","上海","杭州","上海","苏州","苏州","杭州"], "subject":["GDP","人口","CPI","CPI","GDP","人口","GDP","人口","CPI"], "score":[5,8,8,9,

数据分析利器，25个例子学会Pandas Groupby 操作！

y1282037271的博客

12-07

262

数据分析利器，25个例子学会Pandas Groupby 操作！

【数据分析学习笔记day17】Pandas分组与聚合分组 (groupby)+聚合 (aggregation)+数据的分组运算+groupby.apply(func)+1. 分组操作 2. 分组运算

汪雯琦的博客

01-25

1471

文章目录Pandas分组与聚合分组 (groupby)一、GroupBy对象：DataFrameGroupBy，SeriesGroupBy1. 分组操作2. 分组运算3. 按自定义的key分组二、GroupBy对象支持迭代操作1. 单层分组2. 多层分组三、GroupBy对象可以转换成列表或字典1. 按列分组、按数据类型分组2. 其他分组方法3. 通过字典分组4. 通过函数分组，函数传入的参数为行...

Pandas分组、聚合、过滤操作全面解析！

OuDiShenmiss的博客

04-26

4948

思维导图 >>> import numpy as np >>> import pandas as pd >>> df = pd.read_csv('data/table.csv',index_col='ID') >>> df.head() 一、SAC过程 1. 内涵 SAC指的是分组操作中的split-apply-combi...

Pandas数据分析—对每个分组应用apply函数

qq_48081868的博客

09-03

904

14.Pandas对每个分组应用apply函数文章目录14.Pandas对每个分组应用apply函数前言一、怎样对数值列按分组的归一化二、取每个分组的TOPN数据总结前言笔者最近正在学习Pandas数据分析，将自己的学习笔记做成一套系列文章。本节主要记录Pandas中对每个分组应用apply函数. GroupByapply(function) function的第一个参数是dataframe functio的返回结果，可是dataframe、series、单个值，甚至和输入dataframe

pandas通过某一列的值进行排序并选取topN

达达的博客

09-03

6612

Pandas怎样使用GroupBy+.nlargest快速获取每个Group分组的Top 1

蚂蚁学Python

03-03

1178

df = pd.DataFrame({ …: ‘sp’ : [‘MM1’, ‘MM1’, ‘MM1’, ‘MM2’, ‘MM2’, ‘MM2’, ‘MM4’, ‘MM4’,‘MM4’], …: ‘mt’ : [‘S1’, ‘S1’, ‘S3’, ‘S3’, ‘S4’, ‘S4’, ‘S2’, ‘S2’, ‘S2’], …: ‘val’ : [‘a’, ‘n’, ‘cb’, ‘mk’, ‘bg’, ‘dgb’, ‘rd’, ‘cb’, ‘uyi’], …: ‘count’ : [3,2,5,8,10,1,2.

pandas groupby 最大最小值

uvyoaa的专栏

11-04

1万+

df.groupby('key')['data1','data2'].agg(['min','max']) df.groupby('key').agg({'data1':'min','data2':'max'}) 1. 取data1,data2的最小最大值， 2.data1取最小值，data2取最大值。

分组求和并对结果排序python_python - Pandas对groupby的结果排序取TopK

weixin_39691748的博客

12-15

1726

我想按两列对DataFrame进行分组，然后对各组中的汇总结果进行排序，怎么做？In [167]:dfOut[167]:count job source0 2 sales A1 4 sales B2 6 sales C3 3 sales D4 7 sales E5 5 market A6 3 market B7 ...

使用pandas计算分组前十名并排序

sd116460的博客

08-10

7478

result.loc[:,'count_sub']=result['last_week_count']-result['llast_week_count'] print(result.head()) result.sort_values(['artist_third_id','count_sub'],ascending=False,inplace=True) #按照评论增长数排序 result=result.groupby('artist_third_id').head(1...

pandas python groupby_python – pandas groupby：每组的前3个值

weixin_42516104的博客

01-28

328

在pandas groupby: TOP 3 values in each group and store in DataFrame中发布了一个新的更通用的问题,并在那里得到了解决方案.在这个例子中,我创建了一个数据帧df,其中一些随机数据间隔5分钟.我想创建一个数据帧gdf(分组df),其中列出了每小时的3个最高值.即：来自这一系列的价值观VALTIME2017-12-08 00:00:00 ...

pandas获取groupby分组里最大值所在的行

最新发布

03-21

<think>嗯，用户想了解Pandas中groupby的高级用法，特别是多级分组、聚合和自定义函数。首先，我需要回忆一下Pandas的相关文档和常用方法。记得groupby的基本用法是对数据进行分组，然后应用聚合函数，比如sum、mean等。但高级用法可能包括多级分组，也就是按照多个列进行分组，形成层次化的索引。接下来是聚合部分，用户提到了自定义函数。我记得agg()方法可以同时应用多个聚合函数，或者对不同的列应用不同的函数。例如，可以对一列求和，另一列求平均值。另外，用户可能还需要知道如何自定义聚合函数，比如计算某个统计量或者处理异常值后的聚合。然后是多级分组，可能需要使用groupby时传入多个列名的列表，这样会生成多级索引。之后可能需要用到unstack或者reset_index来调整结果的格式。此外，多级分组后的聚合可能需要指定不同层级的聚合方式，或者使用transform、apply等方法进行更灵活的操作。自定义函数方面，用户可能希望例子具体一些，比如定义一个返回均值和标准差的函数，或者处理字符串的函数。需要注意的是，自定义函数需要能够处理Series输入，并返回一个标量值或Series。如果是返回多个值，可能需要使用agg配合特定的参数，或者返回Series以生成多列。另外，用户提到的示例可能需要展示如何将多级分组和聚合结合起来，比如按照地区和产品类别分组，然后对销售额和利润进行不同的聚合操作。同时，可能需要展示如何链式调用多个方法，比如在分组聚合后重命名列名，或者进行数据透视。还要注意引用站内的资料，比如引用[1]提到agg()可以同时应用多个聚合函数，引用[3]介绍了自定义聚合函数的方法。需要将这些引用自然地融入到回答中，比如在讲解agg()时提到引用[1]，在自定义函数部分提到引用[3]。此外，用户的问题可能隐含了对性能优化的需求，比如在大数据集下如何高效地进行分组聚合，或者如何处理分组后的复杂操作。不过用户的问题主要是用法示例，所以可能不需要深入讨论性能，但可以简要提及。可能还需要考虑多级分组后的结果如何处理，比如使用unstack将行转列，或者使用reset_index将多级索引转换为普通列。同时，transform和apply方法的区别，transform返回与原始数据相同长度的结果，而apply更灵活，但可能效率较低。总结一下，回答的结构应该是先介绍多级分组，然后讲解聚合的高级用法，包括自定义函数，最后给出综合示例。需要确保每个部分都有代码示例，并引用相关的资料。可能还需要提醒用户注意groupby后的对象类型，以及如何处理分组后的数据。</think>### Pandas groupby 高级用法详解 #### 1. **多级分组** 通过多个维度对数据进行分组，形成层次化索引结构。例如，按`地区`和`产品类别`分组： ```python import pandas as pd # 示例数据 data = { '地区': ['北京', '上海', '北京', '上海', '北京'], '产品类别': ['电子', '食品', '电子', '食品', '食品'], '销售额': [200, 150, 300, 80, 120], '利润': [40, 30, 60, 15, 25] } df = pd.DataFrame(data) # 多级分组 grouped = df.groupby(['地区', '产品类别']) print(grouped.groups) # 查看分组结构 ``` #### 2. **高级聚合操作** 使用`agg()`方法实现多列不同聚合函数，或对单列应用多个函数： ```python # 对不同列应用不同聚合函数 result = grouped.agg({ '销售额': ['sum', 'mean'], '利润': ['max', lambda x: x.max() - x.min()] # 自定义差值计算 }).reset_index() # 输出结果 print(result) ``` **输出示例**： ``` 地区产品类别销售额利润 sum mean max <lambda_0> 0 北京电子 500 250.0 60 20 1 北京食品 120 120.0 25 10 2 上海食品 230 115.0 30 15 ``` #### 3. **自定义聚合函数** 结合`agg()`定义复杂逻辑，例如计算**均值+标准差**或**分位数范围**： ```python # 自定义函数返回多指标（生成多列） def custom_agg(series): return pd.Series({ 'mean_std': f"{series.mean():.1f}±{series.std():.1f}", 'q75-q25': series.quantile(0.75) - series.quantile(0.25) }) # 应用自定义函数 result_custom = df.groupby('地区')['销售额'].agg(custom_agg).reset_index() print(result_custom) ``` **输出示例**： ``` 地区 mean_std q75-q25 0 北京 206.7±76.4 130.0 1 上海 115.0±49.5 70.0 ``` #### 4. **分组后处理** 使用`transform`和`apply`实现更灵活操作： ```python # 示例：计算每个分组的标准化值（Z-Score） df['标准化销售额'] = df.groupby('地区')['销售额'].transform( lambda x: (x - x.mean()) / x.std() ) # 示例：筛选每组销售额前N的记录 def filter_topn(group, n=1): return group.nlargest(n, '销售额') top_sales = df.groupby('地区', group_keys=False).apply(filter_topn, n=1) print(top_sales) ``` #### 5. **多级索引操作** 处理分组后的层次化索引： ```python # 将多级索引转换为列 result_unstacked = result.unstack(level='产品类别') # 使用swaplevel调整索引层级 result_swapped = result.swaplevel(i=0, j=1, axis=1) ```