《深入拆解 Pandas groupby:从原理到实战的全流程指南》
在数据分析的世界里,Pandas 是一把瑞士军刀,而 groupby 则是其中最锋利的一刃。无论是财务报表的汇总、用户行为的统计,还是机器学习中的特征工程,groupby 都是不可或缺的工具。
但你真的理解它的工作原理吗?今天,我们将从“拆分-应用-合并”(Split-Apply-Combine)这一核心思想出发,全面解析 groupby 的机制与实战技巧,帮助你从容应对各种复杂的数据处理任务。
一、groupby 背后的哲学:拆分-应用-合并
groupby 的本质是将数据按某种规则分组,然后对每组数据进行操作,最后将结果合并成一个新的结构。这一流程可以抽象为:
- 拆分(Split):根据某个键或条件将数据划分为若干组。
- 应用(Apply):对每组数据执行某种操作,如聚合、转换或过滤。
- 合并(Combine):将每组的处理结果整合为一个新的 DataFrame 或 Series。
这个思想不仅适用于 Pandas,也广泛存在于 SQL、MapReduce 等数据处理框架中。
二、基础示例:从一张销售表开始
我们先来看一个简单的销售数据表:
import pandas as pd
data = {
'地区': ['北京', '上海', '北京', '广州', '上海', '广州'],
'销售员': ['张三', '李四', '王五', '赵六', '李四', '赵六'],
'销售额': [1000, 1500, 800, 1200, 1700, 1100]
}
df = pd.DataFrame(data)
print(df)
输出:
地区 销售员 销售额
0 北京 张三 1000
1 上海 李四 1500
2 北京 王五 800
3 广州 赵六 1200
4 上海 李四 1700
5 广州 赵六 1100
我们想知道每个销售员的总销售额:
result = df

最低0.47元/天 解锁文章
98

被折叠的 条评论
为什么被折叠?



