Python groupby、grouper、resample函数使用进阶

最新推荐文章于 2025-03-12 21:57:55 发布

原创最新推荐文章于 2025-03-12 21:57:55 发布 · 5.9k 阅读

24 ·

CC 4.0 BY-SA版权

Pyhton踩坑录专栏收录该内容

43 篇文章

订阅专栏

本文深入探讨了Pandas中groupby功能的高级应用，包括多次groupby、结合Grouper进行时间序列分析及重采样等技巧。通过实例，详细讲解了如何对DataFrame进行复杂的数据分组与聚合操作，特别关注于处理时间序列数据，如按品种、类型对多周期数据求和，以及按不同时间颗粒度进行数据分类和聚合。

部署运行你感兴趣的模型镜像

背景：
DataFrame由2个类别列id、type,2个数字列value1、value2和一个日期时间索引time组成
在这里插入图片描述
一、groupby & groupby多次groupby
目标：多品种、多时间点的数值，按品种、类型排序，取最近30个周期对多个特征值求和

思路：
1、现对时间升序排序，最后即最新数值（倒序排序也可以，用head（））
2、按分组取出最新值
3、按分组对value1、value2求和

df = df.sort_values('time', ascending=True)  # 升序排列，tail即最新值
sum_df = df.groupby(['id', 'type']).tail(30).groupby(['id', 'type']).agg({
        'value1': 'sum',
        'value2': 'sum',
    })

二、groupby & Grouper
目标：按id、type、time分类，且time需要修改时间颗粒度，分类后重新聚合
思路：
1、对id、type使用groupby分组后，使用resample重新采样，发现time的部分时间会丢失

df.groupby(['id', 'type']).resample("D").sum()

2、分组还有TimeGrouper、Grouper函数
pd.TimeGrouper只能按DatetimeIndex进行分组,pd.Grouper可以按日期时间列进行分组，本例按日期分组，使用Grouper
class pandas.Grouper ( key = None，level = None，freq = None，axis = 0，sort = False )

# grouper只要求time列是时间
df['time'] = pd.to_datetime(df['time'])
df = df.groupby(['id', 'value1', pd.Grouper(freq='D', key='time')]).agg({
        'value1': 'sum',
        'value2': 'sum',
        })

三、groupby & resample 分组后重采样
按照列id分组，
按照列time按天重采样，求和

# resample要求time列为时间格式且为index
df = df .set_index(pd.to_datetime(df ['time']))
 df.set_index(pd.to_datetime(df['time'])).groupby('id').resample('D').agg({
        'value1': 'sum',
        'value2': 'sum',
        })

附录
1、groupby的参数as_index的True与False
https://stackoverflow.com/questions/41236370/what-is-as-index-in-groupby-in-pandas
默认值为as_index=True
作用：分组结果行头只有一行

import pandas as pd
 
df = pd.DataFrame(data={'data1':['1','2'], 'data2': [a,b]})
print(df)
print(df.groupby('books', as_index=True).sum())
print (df.groupby('books', as_index=False).sum())