pandas聚合和分组运算之groupby

最新推荐文章于 2025-11-18 09:38:14 发布

原创

最新推荐文章于 2025-11-18 09:38:14 发布 · 3.8k 阅读

CC 4.0 BY-SA版权

pandas提供了一个灵活高效的groupby功能，它使你能以一种自然的方式对数据集进行切片、切块、摘要等操作。根据一个或多个键（可以是函数、数组或DataFrame列名）拆分pandas对象。计算分组摘要统计，如计数、平均值、标准差，或用户自定义函数。对DataFrame的列应用各种各样的函数。应用组内转换或其他运算，如规格化、线性回归、排名或选取子集等。计算透视表或交叉表。执行分位数分析以及其他分组分析。

1、首先来看看下面这个非常简单的表格型数据集（以DataFrame的形式）：

 
          >>>  
          import 
          pandas as pd 
         
 
          >>> df  
          = 
          pd.DataFrame({ 
            
          'key1' 
          :[ 
          'a' 
          ,  
          'a' 
          ,  
          'b' 
          ,  
          'b' 
          ,  
          'a' 
          ], 
         
 
          ...      
          'key2' 
          :[ 
          'one' 
          ,  
          'two' 
          ,  
          'one' 
          ,  
          'two' 
          ,  
          'one' 
          ], 
         
 
          ...      
          'data1' 
          :np.random.randn( 
          5 
          ), 
         
 
          ...      
          'data2' 
          :np.random.randn( 
          5 
          )}) 
         
 
          >>> df 
         
 
                 
          data1     data2 key1 key2 
         
 
          0 
           - 
          0.410673  
          0.519378    
          a  one 
         
 
          1 
           - 
          2.120793  
          0.199074    
          a  two 
         
 
          2  
           0.642216 
          - 
          0.143671    
          b  one 
         
 
          3  
           0.975133 
          - 
          0.592994    
          b  two 
         
 
          4 
           - 
          1.017495 
          - 
          0.530459    
          a  one 
         

假设你想要按key1进行分组，并计算data1列的平均值，我们可以访问data1，并根据key1调用groupby：

 
          >>> grouped  
          = 
          df[ 
          'data1' 
          ].groupby(df[ 
          'key1' 
          ]) 
         
 
          >>> grouped 
         
 
          <pandas.core.groupby.SeriesGroupBy  
          object 
          at  
          0x04120D70 
          > 
         

变量grouped是一个GroupBy对象，它实际上还没有进行任何计算，只是含有一些有关分组键df[‘key1’]的中间数据而已，然后我们可以调用GroupBy的mean方法来计算分组平均值：

 
          >>> grouped.mean() 
         
          key1 
         
          a       
          - 
          1.182987 
         
          b        
          0.808674 
         
          dtype: float64

说明：数据（Series）根据分组键进行了聚合，产生了一个新的Series，其索引为key1列中的唯一值。之所以结果中索引的名称为key1，是因为原始DataFrame的列df[‘key1’]就叫这个名字。

2、如果我们一次传入多个数组，就会得到不同的结果：

 
          >>> means  
          = 
          df[ 
          'data1' 
          ].groupby([df[ 
          'key1' 
          ], df[ 
          'key2' 
          ]]).mean() 
         
          >>> means 
         
          key1  key2 
         
          a     one     
          - 
          0.714084 
         
          two     
          - 
          2.120793 
         
          b     one      
          0.642216 
         
          two      
          0.975133 
         
          dtype: float64

通过两个键对数据进行了分组，得到的Series具有一个层次化索引（由唯一的键对组成）：

 
          >>> means.unstack() 
         
          key2       one       two 
         
          key1                     
         
          a     
          - 
          0.714084 
          - 
          2.120793 
         
          b      
          0.642216  
          0.975133

在上面这些示例中，分组键均为Series。实际上，分组键可以是任何长度适当的数组：

 
          >>> states  
          = 
          np.array([ 
          'Ohio' 
          ,  
          'California' 
          ,  
          'California' 
          ,  
          'Ohio' 
          ,  
          'Ohio' 
          ]) 
         
 
          >>> years  
          = 
          np.array([ 
          2005 
          ,  
          2005 
          ,  
          2006 
          ,  
          2005 
          ,  
          2006 
          ]) 
         
 
          >>> df[ 
          'data1' 
          ].groupby([states, years]).mean() 
         
 
          California   
          2005   
          - 
          2.120793 
         
 
                       
          2006    
          0.642216 
         
 
          Ohio         
          2005    
          0.282230 
         
 
                       
          2006   
          - 
          1.017495 
         
 
          dtype: float64 
         

3、此外，你还可以将列名（可以是字符串、数字或其他Python对象）用作分组将：

 
          >>> df.groupby( 
          'key1' 
          ).mean() 
         
          data1     data2 
         
          key1                     
         
          a     
          - 
          1.182987  
          0.062665 
         
          b      
          0.808674 
          - 
          0.368333 
         
          >>> df.gr

最低0.47元/天解锁文章