Python Pandas分组函数案例详解

本文详细介绍了Pandas库中groupby函数的使用,包括基础分组、统计计算、聚合函数、变换操作、过滤、高级技巧如多级索引和时间序列处理,以及性能优化和数据合并方法。通过实例演示,帮助读者掌握这个强大的数据分析工具。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Pandas的groupby函数是数据分析和处理中的重要工具,允许按照指定的列对数据进行分组,并在每个组内执行相应的操作。本文将详细介绍groupby函数的使用方法,并提供丰富的示例代码,覆盖从基础用法到高级操作的多个方面。

1. 基础用法

1.1 分组并计算统计量

import pandas as pd

# 创建示例DataFrame
data = {'Category': ['A', 'B', 'A', 'B', 'A', 'B'],
        'Value': [10, 20, 15, 25, 18, 30]}
df = pd.DataFrame(data)

# 按Category分组,并计算每组的平均值
grouped = df.groupby('Category')
result = grouped.mean()

print(result)

1.2 多列分组

# 多列分组,并计算每组的总和
result_multi = df.groupby(['Category', 'Value']).sum()

print(result_multi)

2. 聚合函数和变换

2.1 自定义聚合函数

# 自定义聚合函数
def custom_agg(x):
    return x.max() - x.min()

# 应用自定义聚合函数
result_custom_agg = df.groupby('Category')['Value'].agg(custom_agg)

print(result_custom_agg)

2.2 变换操作

# 对每个组进行变换操作,计算与均值的差值
df['Value_diff'] = df.groupby('Category')['Value'].transform(lambda x: x - x.mean())

print(df)

3. 过滤操作

# 过滤出平均值大于15的组
result_filter = df.groupby('Category').filter(lambda x: x['Value'].mean() > 15)

print(result_filter)

4. 高级操作

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值