pandas 分组、聚合函数groupby

最新推荐文章于 2025-06-22 09:31:30 发布

求知者_123

最新推荐文章于 2025-06-22 09:31:30 发布

阅读量1k

点赞数 1

CC 4.0 BY-SA版权

分类专栏：数据分析 pandas学习

本文链接：https://blog.youkuaiyun.com/qq_21840201/article/details/81183014

分组过程如下图所示：

import numpy as np
import pandas as pd
df=pd.DataFrame({'key1':list('aabbab'),
                 'key2':list('cccddd'),
                 'value1':np.arange(1,7),
                 'value2':np.arange(7,13)})
df
   key1 key2  value1  value2
0    a    c       1       7
1    a    c       2       8
2    b    c       3       9
3    b    d       4      10
4    a    d       5      11
5    b    d       6      12

### 用key1分组后创建了一个GroupBy对象，后面函数的任何操作都是基于这个对象的,这一步没有进行运算。
df['value1'].groupby(df['key1']
<pandas.core.groupby.groupby.SeriesGroupBy object at 0x0000000008D74F60>

group=df['value1'].groupby(df['key1'])
group.mean()   ### 分组后求平均
key1
a    2.666667
b    4.333333
group.max()    ###

最低0.47元/天解锁文章

新学期VIP享超值加赠

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

求知者_123

关注关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Pandas分组函数groupby、聚合函数agg和转换函数transform

小龙在线

10-28

1051

by: 指定根据哪个/哪些字段分组，默认值是None，按多个字段分组时传入列表。by参数可以按位置参数的方式传入。axis: 设置按列分组还是按行分组，0或index表示按列分组，1或columns表示按行分组，默认值为0。level: 当DataFrame的索引为多重索引时，level参数指定用于分组的索引，可以传入多重索引中索引的下标（0,1…）或索引名，多个用列表传入。

深入理解 Pandas 分组聚合：从基础到进阶-groupby使用

像风一样自由的博客

10-15

1445

分组聚合是指将数据按某些条件进行分组，然后对每组数据进行某种计算，如求和、平均值、计数等。使用groupby()进行分组。使用聚合函数对分组后的数据进行汇总。我们还可以使用自定义的聚合函数。custom_agg = df.groupby('城市')['销售额'].agg(lambda x: x.max() - x.min())城市北京 20广州 30上海 50Name: 销售额, dtype: int64。

参与评论您还未登录，请先登录后发表或查看评论

pandas聚合函数

weixin_52730784的博客

06-20

667

数据分析笔记--pandas的分组和聚合

print_and_return的博客

06-04

2862

import pandas as pdimport numpy as np新建一个带分组特征的DataFrame对象分组操作 groupby注意：只对数据集进行分组操作，将不会显示结果，只会生成一个分组的对象，只有分组后进行聚合运算才有实际结果分组后的聚合运算对整个数据集进行聚合运算对data2进行分组后的聚合运算自定义key进行分组自定义一个列表，个数和每列的个数相同...

df.groupby().mean()使用注意事项

最新发布

qq_62101254的博客

06-22

277

在对数据进行分组求均值 () 时，数据中包含非数值类型的列（特别是字符串），而 pandas 无法计算字符串的均值。

Python数据分析 | (28) GroupBy机制

sdu_hao的博客

10-08

2064

对数据集进行分组并对各组应用一个函数(无论是聚合还是转换)，通常是数据分析工作中的重要环节。在将数据集加载、融合、准备好之后，通常就是计算分组统计或生成透视表。pandas提供了一个灵活高效的gruopby功能，它使你能以一种自然的方式对数据集进行切片、切块、摘要等操作。关系型数据库和SQL(Structured Query Language，结构化查询语言)能够如此流行的原因之一就是...

pandas.groupby分组聚合函数

weixin_42578783的博客

09-14

438

https://www.jianshu.com/p/e724a8d62757

Pandas聚合函数——《Python数据分析库Pandas》

Python老吕的博客

05-25

992

除了内置的聚合函数外，Pandas还允许我们自定义聚合函数。这可以通过apply()方法实现，该方法接受一个函数作为参数，并将该函数应用于DataFrame或Series的每个元素。这使得我们能够根据具体需求编写自己的聚合逻辑。例如，假设我们想要计算销售额的加权平均值，其中权重为销售数量。我们可以定义一个自定义函数来计算加权平均值，并将其应用于列。# 自定义加权平均值函数# 使用自定义函数计算加权平均值print("加权平均销售额:", weighted_avg_sales)

Pandas系列学习教程——14 pandas分组聚合统计groupby

lzylzy66的博客

03-13

1379

随着人工智能的不断发展，数据分析这门技术也越来越重要，很多人都开启了学习数据分析，本文就介绍了pandas学习的基础内容。本章简单介绍了pandas分组聚合统计，具体介绍了分组使用聚合函数做数据统计和遍历groupby的结果执行流程两种方法。

Pandas使用教程 - 数据分组与聚合 (groupby)

qq_42568323的博客

02-12

1722

除了使用内置的聚合函数外，我们还可以传入自定义函数来对每个组的数据进行处理。假设我们想计算每个部门工资的极差（最大值减去最小值），可以自定义一个 lambda 表达式或函数来实现。我们也可以定义一个函数，并传入agg()方法。salary_range_func = df.groupby("部门")["工资"].agg(calc_range)print("各部门工资极差（自定义函数）：")输出与上例相同。

pandas分组聚合

12-21

我们可以使用`groupby()`函数根据一列或多列的值对数据进行分组，然后对分组后的数据应用聚合函数。例如，要计算每个爱好的平均价格，可以这样操作： ```python group = frame['price'].groupby(frame['hobby']) ...

pandas 聚合函数

Claroja

08-17

822

将对一列进行计算返回一个值方法描述 Series.all([axis, bool_only, skipna, level]) 是否全为True Series.any([axis, bool_only, skipna, level]) 是否有一个为True Series.corr(other[, method, min_periods]) 相关性 Series.count([level]) Series.cov(other[, min_periods]) 协方差 Se

Python Pandas窗口函数

ccc369639963的博客

04-19

4223

Python Pandas窗口函数为了能更好地处理数值型数据，Pandas 提供了几种窗口函数，比如移动函数（rolling）、扩展函数（expanding）和指数加权函数（ewm）。窗口函数应用场景非常多。举一个简单的例子：现在有 10 天的销售额，而您想每 3 天求一次销售总和，也就说第五天的销售额等于（第三天 + 第四天 + 第五天）的销售额之和，此时窗口函数就派上用场了。窗口是一种形象化的叫法，这些函数在执行操作时，就如同窗口一样在数据区间上移动。本节学习主要讲解如何在 DataFrame

python-数据分析-（11）pandas聚合函数、透视表、交叉表、表格合并常见操作

pseudonym

01-04

2725

一聚合函数 1. numpy、pandas使用的统计方式在数组中经常使用的聚合方式 data[['counts', 'ches_name']].agg([np.mean, np.std]) agg({'xx':np.mean, 'xx2':[np.sum, np.std]}) 2. 在pandas或者numpy中没有现成的函数可以使用，可以使用transform自定义函数如：将指定列的全部数据 * 2 方式一 data['counts'].transform(lambda x: x*2) 方式二

pandas的聚合操作: groupyby与agg

冯良骏的博客

07-01

1万+

pandas提供基于行和列的聚合操作，groupby可理解为是基于行的，agg则是基于列的从实现上看，groupby返回的是一个DataFrameGroupBy结构，这个结构必须调用聚合函数（如sum）之后，才会得到结构为Series的数据结果。而agg是DataFrame的直接方法，返回的也是一个DataFrame。当然，很多功能用sum、mean等等也可以实现。但是agg更加简洁, 而...

pandas数据分析之分组聚合

oyu~的博客

09-04

2564

pandas的groupby分组对象还可以用自定义的聚合函数可以通过groupby分组对象，将你自己的聚合函数，传入aggregate或agg方法即可grouped = df . groupby([ 'key' ]) #查看分组情况 for group_name , group_data in grouped : print(group_name) print(group_data)1.对每一列数据应用同一个函数2.对某列数据应用不同的函数。

Pandas知识点-详解聚合函数agg

热门推荐

weixin_43790276的博客

07-30

1万+

pandas系列：聚合函数agg()

详解Pandas聚合函数agg

金戈鐡馬

03-17

3391

func: 用于聚合数据的函数，如max()、mean()、count()等，函数必须满足传入一个DataFrame能正常使用，或传递到DataFrame.apply()中能正常使用。本文介绍的聚合函数为DataFrame.aggregate()，别名DataFrame.agg()，aggregate()和agg()是同一个函数，仅名字不同。在agg()中，可以用列表的方式传入多个函数，会将这些函数在每一列的执行结果聚合到一个DataFrame中，结果DataFrame中的索引为对应的函数名。

pandas笔记二（数据连接、合并、分组和聚合函数）

paul0926的博客

08-07

1129

Pandas笔记二（数据连接、合并）数据连接和合并数据连接 merge数据连接 join数据合并 numpy.concatenate()数据合并 pd.concat() (这个是重点) 数据连接和合并总结差别： 1、当没有索引时：merge、join为按照一定条件合并 2、当有索引、并按照索引合并时，得到结果为两者混合到一起了，重新按照一定规则排序了。 3、当没有索引时、concat不管列名，...

Pandas分组函数groupby、聚合函数agg、转换函数transform

03-14

<think>好的，用户想了解Pandas中groupby、agg和transform的用法及区别。首先，我需要回忆这三个函数的基本功能。 Groupby是分组操作的核心，用于将数据按照某个或某些列分成不同的组。接下来是聚合函数agg，它对每个组应用一个或多个聚合函数，返回每个组的统计结果，比如求和、平均值等。而transform函数则是在保持原数据形状的同时，对每个组内的数据进行转换，比如标准化或填充缺失值。用户可能想知道它们的具体使用方法和区别，比如输出结构、应用场景等。需要举例说明，比如使用agg会得到每组汇总后的结果，而transform返回与原数据相同行数的结果，但每个值是组内的聚合值。例如，计算每个组的平均后，transform会把该组的平均值填到每个原数据行中。还要注意引用中的资料，比如引用[4]提到了groupby+agg的使用示例，引用[2]和[3]讨论了transform的用法。需要将这些引用内容自然地融入回答，确保正确引用来源。可能用户的实际需求是处理分组数据后进行不同的操作，比如汇总统计或数据转换。需要区分agg和transform的不同输出形式，以及它们适用的场景。比如agg适合生成汇总报表，transform适合创建新的特征列。最后，生成相关问题时要围绕这三个函数的应用场景、性能比较和高级用法，帮助用户深入理解。确保问题覆盖常见疑问，比如性能差异、多函数应用等。</think>以下是关于Pandas中分组函数`groupby`、聚合函数`agg`和转换函数`transform`的用法及区别的详细说明： --- ### 一、groupby：分组操作 `groupby`是分组操作的核心，将数据按指定列或条件划分为多个子集。 **语法示例**： ```python grouped = df.groupby("students") ``` **特点**： - 分组后生成`DataFrameGroupBy`对象，需配合聚合或转换函数使用 - 支持按单列、多列（列表形式）或自定义函数分组[^1] --- ### 二、agg：聚合操作 `agg`用于对分组后的数据执行**聚合计算**，返回每组汇总后的结果。 **语法示例**： ```python df.groupby("students").agg({"money": ["sum", "mean"]}) ``` **特点**： - 输出结果的行数等于分组数量 - 支持多列不同聚合方式（如同时计算总和、均值） - 可自定义聚合函数（如`np.sum`或`lambda`函数）[^4] **应用场景**：生成分组统计报表，如销售额分地区汇总。 --- ### 三、transform：转换操作 `transform`对分组数据执行操作后，**保持原始数据形状**，返回与原始数据相同行数的结果。 **语法示例**： ```python df["group_mean"] = df.groupby("students")["money"].transform("mean") ``` **特点**： - 输出结果与原始数据行数一致 - 常用于创建新列（如组内标准化、填充缺失值） - 必须返回与组内数据形状匹配的结果[^2][^3] **应用场景**：计算组内排名、生成组内归一化特征。 --- ### 四、三者的核心区别 | 函数 | 输出形状 | 典型用途 | 是否改变数据结构 | |----------|------------------|------------------------|-----------------------| | `groupby`| 中间对象 | 分组准备 | 不直接输出结果 | | `agg` | 分组数 × 统计量 | 生成汇总统计表 | 缩减行数 | | `transform`| 原始数据行数 | 组内特征工程 | 保持行数不变 | --- ### 五、综合示例假设有以下数据： ```python import pandas as pd data = {"students": ["A", "A", "B", "B"], "score": [80, 90, 70, 85]} df = pd.DataFrame(data) ``` 1. **agg用法**： ```python df.groupby("students").agg({"score": ["max", "min"]}) ``` 输出： ``` score max min students A 90 80 B 85 70 ``` 2. **transform用法**： ```python df["avg_score"] = df.groupby("students")["score"].transform("mean") ``` 输出： ``` students score avg_score 0 A 80 85 1 A 90 85 2 B 70 77.5 3 B 85 77.5 ``` ---