pandas分组后如何对分组后的数据进行遍历处理？

文章介绍了在数据分析中，如何利用Pandas的groupby()方法对数据集进行分组并进行处理。通过示例展示了如何迭代GroupBy对象，执行统计汇总、应用自定义函数以及重置索引等操作，强调了Pandas在分组层面的灵活性和实用性。

在进行数据分析时，我们常常需要对数据集进行分组，然后针对不同的分组进行不同的处理。Pandas的.groupby()方法可以轻松实现数据分组，本文将介绍如何遍历处理分组后的数据。

首先，我们构造一个示例DataFrame:

python
import pandas as pd

df = pd.DataFrame({
    'A': ['a'， 'a'， 'b'， 'b'， 'a']，
    'B': [1， 2， 3， 4， 5]，
    'C': [10， 20， 30， 40， 50] 
})

然后使用.groupby()对'A'列进行分组:

python
grouped = df.groupby('A')

这会给我们一个GroupBy对象，我们可以迭代这个对象来访问分组名称(name)和分组后的数据(group):

python
for name， group in grouped:
    print(name)
    print(group)

输出:

有了分组后的数据，我们就可以对其进行任意处理了:
- 统计汇总:

python
for name， group in grouped:
    print(name)  
    print(group.sum())

- 应用函数:

python 
def multiply(x):
    return x * 2  

for name， group in grouped:
    group['B'] = group['B'].apply(multiply)

- 重置索引:

python
for name， group in grouped: 
    group = group.reset_index(drop=True)

Pandas的分组功能结合迭代处理，可以轻松实现在分组层面上针对组内数据进行定制化的操作。