本文介绍了如何使用Python的Pandas库进行数据透视和汇总操作，包括创建透视表和交叉表，详细展示了不同参数如index、columns、aggfunc和fill_value的作用，以及它们如何帮助我们更好地理解和分析数据。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

          
          import numpy as np 
          import pandas as pd 
          from pandas import Series,DataFrame

 
            df = DataFrame({'sex':['man','man','women','women','man','women','man','women','women'], 
                           'age':[15,23,25,17,35,57,24,31,22], 
                           'smoke':[True,False,False,True,True,False,False,True,False], 
                           'height':[168,179,181,166,173,178,188,190,160]}) 
            df

Out[3]:

	age	height	sex	smoke
0	15	168	man	True
1	23	179	man	False
2	25	181	women	False
3	17	166	women	True
4	35	173	man	True
5	57	178	women	False
6	24	188	man	False
7	31	190	women	True
8	22	160	women	False

透视表

各种电子表格程序和其他数据分析软件中一种常见的数据汇总工具。它根据一个或多个键对数据进行聚合，并根据行和列上的分组键将数据分配到各个矩形区域中

行分组透视表设置index参数

               
            # 默认得到一个平均值 
            df.pivot_table(index=[df.sex,df.smoke])

Out[4]:

		age	height
sex	smoke
man	False	23.500000	183.5
man	True	25.000000	170.5
women	False	34.666667	173.0
women	True	24.000000	178.0

列分组透视表设置columns参数

 
            df.pivot_table(columns=df.smoke)

Out[5]:

smoke	False	True
age	30.2	24.50
height	177.2	174.25

行列分组的透视表同时设定index、columns参数

In [9]:

          
            df.pivot_table(index=df.sex,columns=df.smoke)

Out[9]:

	age		height
smoke	False	True	False	True
sex
man	23.500000	25.0	183.5	170.5
women	34.666667	24.0	173.0	178.0

aggfunc：设置应用在每个区域的聚合函数，默认值为np.mean

In [10]:

          
            df.pivot_table(index=df.sex,aggfunc=np.sum)

Out[10]:

	age	height	smoke
sex
man	97	708	2.0
women	152	875	2.0

fill_value：替换结果中的缺失值

交叉表

是一种用于计算分组频率的特殊透视图,对数据进行汇总

pd.crosstab(index,colums)

index:分组数据，交叉表的行索引
columns:交叉表的列索引

 
            pd.crosstab(index=df.sex,columns=df.smoke)

Out[6]:

smoke	False	True
sex
man	2	2
women	3	2

转载于:https://www.cnblogs.com/ws0751/p/8361362.html