累计与分组
在对比较大的数据进行分析时,一项基本的工作就是有效的数据累计(summarization):计算累计(aggragation)指标,如sum()、mean()、median()、min()和max(),其中每一项指标都呈现出大数据集的特征。
一、简单的累计计算
简单的累计计算是对DataFrame或者Series对象使用累计函数:sum()、mean()、median()、min()和max()等。设数据集为df,那么简单的累计计算语法为df.agg_func()
,pandas为Dataframe提供了describe()方法可以一次性计算出每一列上的若干常用统计值。
#数据:Seaborn数据库中的行星数据
import pandas as pd
import seaborn as sns
import numpy as np
planets = sns.load_dataset('planets')
planets.describe()
Out[79]:
number orbital_period ... distance year
count 1035.000000 992.000000 ... 808.000000 1035.000000
mean 1.785507 2002.917596 ... 264.069282 2009.070531
std 1.240976 26014.728304 ... 733.116493 3.972567
min 1.000000 0.090706 ... 1.350000 1989.000000
25% 1.000000 5.442540 ... 32.560000 2007.000000
50% 1.000000 39.979500 ... 55.250000 2010.000000
75% 2.000000 526.005000 ... 178.500000 2012.000000
max 7.000000 730000.000000 ... 8500.000000 2014.000000
[8 rows x 5 columns]
这些简单的累计方法默认都是对列进行统计,如果想要统计行的数据的特性,可以加上参数axis=1
#在列的方向上聚合
df.agg_func(axis=1)
二、高阶的累计方法:GroupBy
GroupBy简单来看就是Pandas为DataFrame提供的一个分组的工具,通过df.groupby('key')
可以得到一个DataFrameGroupBy对象,你可以将它看作是一种特殊形式的DataFrame,里面隐藏着若干组数据,但是在没有应用聚合操作之前不会计算。这种“延迟计算”的方法使得大多数常见的累计计算操作可以通过一种对用户而言几乎透明的方式非常高效的实现。
GroupBy的过程如下:
- 分割:将DataFrame按照指定的键分割成若干组
- 应用:对每个组应用聚合函数,通常是累计、转换或过滤函数
- 组合:将每个组的结果合并成一个输出数组
DataFrameGroupBy对象的操作
对分组后指定列的数据使用简单累计函数
#对数据集在method列上进行分组,然后求各组中行星轨道周期的中位数 planets.groupby('method')['orbital_period'].median() #输出结果: method Astrometry 631.180000 Eclipse Timing Variations 4343.500000 Imaging