如何在 Pandas 中对 dataframe 进行 groupby 并保留列?

如何在 Pandas 中对 dataframe 进行 groupby 并保留列?

默认情况下,groupby() 返回一个新的 DataFrame,其中仅包含用于对数据进行分组的列以及应用于每个组的操作结果。但是,您可以使用 agg() 函数对每个组应用多个操作,并返回包含所有原始列的 DataFrame。

# 按产品对销售数据进行分组,并计算销售数量的和平均值
sales_by_product = sales_data.groupby('product').\
agg({'quantity_sold': ['sum''mean']})

在此示例中,sales_data.groupby(‘product’) 按 ‘product’ 列对销售数据进行分组,而 agg({‘quantity_sold’: [‘sum’, ‘mean’]}) 将 sum 和 mean 函数应用于每个组的 ‘quantity_sold’ 列。结果是一个包含 ‘product’ 列和两个新列 ‘quantity_sold_sum’ 和 ‘quantity_sold_mean’ 的新 DataFrame。

如果要将所有原始列保留在分组的 DataFrame 中,可以使用 transform() 函数而不是 agg()。transform() 将函数应用于每个组,并返回与原始 DataFrame 具有相同形状的 DataFrame。

# 按产品对销售数据进行分组,并计算每组的销售数量之和
# 同时保留所有原始列
sales_data['quantity_sold_sum'] = \
sales_data.groupby('product')['quantity_sold'].\
transform(lambda x: x.sum())

在此示例中,sales_data.groupby(‘product’) 按 ‘product’ 列对销售数据进行分组,而 transform(lambda x: x[‘quantity_sold’].sum()) 将 sum 函数应用于每个组的 ‘quantity_sold’ 列。结果是一个包含所有原始列的新 DataFrame 和一个新列 ‘quantity_sold_sum’,其中包含每个组的 ‘quantity_sold’ 列的总和。

结论
groupby() 是 Pandas 中的一个强大函数,它允许您根据一个或多个列对 DataFrame 的行进行分组,并对每个组执行操作。默认情况下,groupby() 返回一个新的 DataFrame,其中仅包含用于对数据进行分组的列以及应用于每个组的操作结果。但是,您可以使用 agg() 函数对每个组应用多个操作,并返回包含所有原始列的 DataFrame。如果要将所有原始列保留在分组的 DataFrame 中,可以使用 transform() 函数而不是 agg()。 使用这些工具,您可以轻松地对 Pandas 中的数据进行分组和分析。

source: https://saturncloud.io/blog/how-to-groupby-a-dataframe-in-pandas-and-keep-columns/#:~:text=By%20default%2C%20groupby%28%29%20returns%20a%20new%20dataframe%20with,a%20dataframe%20with%20all%20of%20the%20original%20columns.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值