Pandas学习笔记七——累计与分组

本文详细介绍了Pandas中的数据累计与分组操作,包括简单的累计计算,如sum()、mean()等,以及高阶的GroupBy方法。GroupBy提供了DataFrameGroupBy对象,支持延迟计算和各种聚合函数,如aggregate()、filter()、transform()和apply()。通过设置不同的分割键,可以实现灵活的数据分组和分析。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

累计与分组

在对比较大的数据进行分析时,一项基本的工作就是有效的数据累计(summarization):计算累计(aggragation)指标,如sum()、mean()、median()、min()和max(),其中每一项指标都呈现出大数据集的特征。

一、简单的累计计算

简单的累计计算是对DataFrame或者Series对象使用累计函数:sum()、mean()、median()、min()和max()等。设数据集为df,那么简单的累计计算语法为df.agg_func(),pandas为Dataframe提供了describe()方法可以一次性计算出每一列上的若干常用统计值。

#数据:Seaborn数据库中的行星数据
import pandas as pd
import seaborn as sns
import numpy as np
planets = sns.load_dataset('planets')
planets.describe()

Out[79]: 
            number  orbital_period     ...          distance         year
count  1035.000000      992.000000     ...        808.000000  1035.000000
mean      1.785507     2002.917596     ...        264.069282  2009.070531
std       1.240976    26014.728304     ...        733.116493     3.972567
min       1.000000        0.090706     ...          1.350000  1989.000000
25%       1.000000        5.442540     ...         32.560000  2007.000000
50%       1.000000       39.979500     ...         55.250000  2010.000000
75%       2.000000      526.005000     ...        178.500000  2012.000000
max       7.000000   730000.000000     ...       8500.000000  2014.000000

[8 rows x 5 columns]

这些简单的累计方法默认都是对列进行统计,如果想要统计行的数据的特性,可以加上参数axis=1

#在列的方向上聚合
df.agg_func(axis=1)
二、高阶的累计方法:GroupBy

GroupBy简单来看就是Pandas为DataFrame提供的一个分组的工具,通过df.groupby('key')可以得到一个DataFrameGroupBy对象,你可以将它看作是一种特殊形式的DataFrame,里面隐藏着若干组数据,但是在没有应用聚合操作之前不会计算。这种“延迟计算”的方法使得大多数常见的累计计算操作可以通过一种对用户而言几乎透明的方式非常高效的实现。

GroupBy的过程如下:

  • 分割:将DataFrame按照指定的键分割成若干组
  • 应用:对每个组应用聚合函数,通常是累计、转换或过滤函数
  • 组合:将每个组的结果合并成一个输出数组
DataFrameGroupBy对象的操作
  • 对分组后指定列的数据使用简单累计函数

    
    #对数据集在method列上进行分组,然后求各组中行星轨道周期的中位数
    
    planets.groupby('method')['orbital_period'].median()
    
    
    #输出结果:
    
    method
    Astrometry                         631.180000
    Eclipse Timing Variations         4343.500000
    Imaging                   
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值