如何在 Pandas 中对 dataframe 进行 groupby 并保留列?
默认情况下,groupby() 返回一个新的 DataFrame,其中仅包含用于对数据进行分组的列以及应用于每个组的操作结果。但是,您可以使用 agg() 函数对每个组应用多个操作,并返回包含所有原始列的 DataFrame。
# 按产品对销售数据进行分组,并计算销售数量的和平均值
sales_by_product = sales_data.groupby('product').\
agg({'quantity_sold': ['sum', 'mean']})
在此示例中,sales_data.groupby(‘product’) 按 ‘product’ 列对销售数据进行分组,而 agg({‘quantity_sold’: [‘sum’, ‘mean’]}) 将 sum 和 mean 函数应用于每个组的 ‘quantity_sold’ 列。结果是一个包含 ‘product’ 列和两个新列 ‘quantity_sold_sum’ 和 ‘quantity_sold_mean’ 的新 DataFrame。
如果要将所有原始列保留在分组的 DataFrame 中,可以使用 transform() 函数而不是 agg()。transform() 将函数应用于每个组,并返回与原始 DataFrame 具有相同形状的 DataFrame。
# 按产品对销售数据进行分组,并计算每组的销售数量之和
# 同时保留所有原始列
sales_data['quantity_sold_sum'] = \
sales_data.groupby('product')['quantity_sold'].\
transform(lambda x: x.sum())
在此示例中,sales_data.groupby(‘product’) 按 ‘product’ 列对销售数据进行分组,而 transform(lambda x: x[‘quantity_sold’].sum()) 将 sum 函数应用于每个组的 ‘quantity_sold’ 列。结果是一个包含所有原始列的新 DataFrame 和一个新列 ‘quantity_sold_sum’,其中包含每个组的 ‘quantity_sold’ 列的总和。
结论
groupby() 是 Pandas 中的一个强大函数,它允许您根据一个或多个列对 DataFrame 的行进行分组,并对每个组执行操作。默认情况下,groupby() 返回一个新的 DataFrame,其中仅包含用于对数据进行分组的列以及应用于每个组的操作结果。但是,您可以使用 agg() 函数对每个组应用多个操作,并返回包含所有原始列的 DataFrame。如果要将所有原始列保留在分组的 DataFrame 中,可以使用 transform() 函数而不是 agg()。 使用这些工具,您可以轻松地对 Pandas 中的数据进行分组和分析。