背景:
DataFrame由2个类别列id、type,2个数字列value1、value2和一个日期时间索引time组成

一、groupby & groupby多次groupby
目标:多品种、多时间点的数值,按品种、类型排序,取最近30个周期对多个特征值求和
思路:
1、现对时间升序排序,最后即最新数值(倒序排序也可以,用head())
2、按分组取出最新值
3、按分组对value1、value2求和
df = df.sort_values('time', ascending=True) # 升序排列,tail即最新值
sum_df = df.groupby(['id', 'type']).tail(30).groupby(['id', 'type']).agg({
'value1': 'sum',
'value2': 'sum',
})
二、groupby & Grouper
目标:按id、type、time分类,且time需要修改时间颗粒度,分类后重新聚合
思路:
1、对id、type使用groupby分组后,使用resample重新采样,发现time的部分时间会丢失
df.groupby(['id', 'type']).resample("D").sum()
2、分组还有TimeGrouper、Grouper函数
pd.TimeGrouper只能按DatetimeIndex进行分组,pd.Grouper可以按日期时间列进行分组,本例按日期分组,使用Grouper
class pandas.Grouper ( key = None,level = None,freq = None,axis = 0,sort = False )
# grouper只要求time列是时间
df['time'] = pd.to_datetime(df['time'])
df = df.groupby(['id', 'value1', pd.Grouper(freq='D', key='time')]).agg({
'value1': 'sum',
'value2': 'sum',
})
三、groupby & resample 分组后重采样
按照列id分组,
按照列time按天重采样,求和
# resample要求time列为时间格式且为index
df = df .set_index(pd.to_datetime(df ['time']))
df.set_index(pd.to_datetime(df['time'])).groupby('id').resample('D').agg({
'value1': 'sum',
'value2': 'sum',
})
附录
1、groupby的参数as_index的True与False
https://stackoverflow.com/questions/41236370/what-is-as-index-in-groupby-in-pandas
默认值为as_index=True
作用:分组结果行头只有一行
import pandas as pd
df = pd.DataFrame(data={'data1':['1','2'], 'data2': [a,b]})
print(df)
print(df.groupby('books', as_index=True).sum())
print (df.groupby('books', as_index=False).sum())
data1 data2
0 1 a
1 2 b
data2
data1
0 1 a
1 2 b
data1 data2
0 1 a
1 2 b
本文深入探讨了Pandas中groupby功能的高级应用,包括多次groupby、结合Grouper进行时间序列分析及重采样等技巧。通过实例,详细讲解了如何对DataFrame进行复杂的数据分组与聚合操作,特别关注于处理时间序列数据,如按品种、类型对多周期数据求和,以及按不同时间颗粒度进行数据分类和聚合。
915

被折叠的 条评论
为什么被折叠?



