第10章 数据聚合与分组运算
10.1 GroupBy机制
split-apply-combine(拆分-应用-合并)。第一阶段,pandas对象(无论是Series、DataFrame还有其他的)中的数据会根据你所提供的一个或多个键被拆分(split)为多组。拆分操作是在对象的特定轴上执行。

分组键可以有多种形式,且类型不必相同:
列表或数组,其长度与待分组的轴一样。
表示DataFrame某个列名的值。
字典或Series,给出待分组轴上的值与分组名之间的对应关系。
函数,用于处理轴索引或索引中的各个标签。
groupby的size方法返回一个含有分组大小的series。

- 对分组进行迭代
groupby默认是在axis=0上进行分组的,通过设置也可以在其他任何轴上进行分组。
- 通过字典或Series进行分组

假设已知列的分组关系,并根据分组计算列的和:

本章节详细介绍了Python数据分析中数据的分组与聚合运算。内容涵盖GroupBy机制,包括split-apply-combine原理,分组键的多种形式,如列表、字典、函数和索引级别。同时,讲解了数据聚合,如quantile计算分位数,自定义聚合函数,面向列的多函数应用,以及如何处理缺失值。此外,还探讨了apply方法的使用,例如分位数和桶分析,以及透视表和交叉表的创建,用于高效的数据汇总和分析。
最低0.47元/天 解锁文章
300

被折叠的 条评论
为什么被折叠?



