Pandas聚合

最新推荐文章于 2025-01-18 13:01:44 发布

原创最新推荐文章于 2025-01-18 13:01:44 发布 · 253 阅读

CC 4.0 BY-SA版权

# coding: utf-8

import numpy as np
import pandas as pd


# # 聚合，常用语对分组后的数据进行计算
# ## 常用的内置聚合函数： sum() mean() max() min() 
count() size()
# ## 也可以通过自定义函数，传入agg()方法中，实现

dict_obj = {
    'key1':['a','b','a','b','a','b','a','b'],
    'key2':['one','two','three','one','three',
'three','two','one'],
    'data1':[5,6,5,2,3,3,2,4],
    'data2':[3,4,5,6,3,5,2,5]
}
df = pd.DataFrame(dict_obj)
print df



# 内置的聚合函数
print df.groupby('key1').sum()



# 自定义聚合函数
def custom(df):
    return df.max()-df.min()
print df.groupby('key1').agg(custom)



# agg()同时应用多个函数，max-min是自定义的列名
print df.groupby('key1').agg(['sum','max','min',
('max-min',custom)])


# 每一列使用不同的聚合函数
dict1 = {
    'data1':'mean',
    'data2':'sum'
}
print df.groupby('key1').agg(dict1)