Pandas中透视表和交叉表

最新推荐文章于 2025-02-15 16:13:00 发布

原创最新推荐文章于 2025-02-15 16:13:00 发布 · 2.3k 阅读

31 ·

CC 4.0 BY-SA版权

数据分析专栏收录该内容

24 篇文章

订阅专栏

本文详细介绍了Pandas中的透视表pivot_table和交叉表crosstab的使用，包括其API、参数设置和实际操作示例。通过示例展示了如何设置index、values、columns和aggfunc，以及对比了pivot_table与groupby的区别。此外，还探讨了unstack和stack在数据透视中的作用。

文章目录

一、什么是透视表？

透视表是一种可以对数据动态排布并且分类汇总的表格格式。或许大多数人都在Excel使用过数据透视表（如下图），也体会到它的强大功能，而在pandas中它被称作pivot_table。
在这里插入图片描述

二、为什么要使用pivot_table？

灵活性高，可以随意定制你的分析计算要求
脉络清晰易于理解数据
操作性强，报表神器

三、pivot_table api认识

pandas.pivot_table(data, values=None, index=None, columns=None,aggfunc=‘mean’, margins=False)

data:[必须]需要操作数据 DataFrame
values:要进行计算操作的列名一个列名或列名组成的列表,不给代表对所有列操作
index:[必须]分组后作为行索引的列名一个列名或列名组成的列表
columns:分组后作为行索引的列名一个列名或列名组成的列表
aggfunc:指定对values参数所给的列做什么计算操作,可以是字典(分别为不同的列指定不同的计算操作),默认为mean(计算均值)
margins:是否进行行汇总和列汇总

四、如何使用pivot_table？

4.1 读取数据

df = pd.read_csv('data/James_Harden.csv',encoding='utf8')
df.tail()

在这里插入图片描述

4.2 使用index参数

每个pivot_table必须拥有一个index，如果想查看哈登对阵每个队伍的得分，首先我们将对手设置为index：

pd.pivot_table(df,index=[u'对手'])

在这里插入图片描述
上图红框中的数值分别是[对手=‘76人’]这一组数据中[3分命中率,助攻,命中,得分,投篮命中率,投篮数,篮板]这些数据的平均值.

可以看到,对手成为了第一层索引，还想看看对阵同一对手在不同主客场下的数据，试着将对手与胜负与主客场都设置为index

pd.pivot_table(df,index=[u'对手',u'主客场'])

在这里插入图片描述
试着交换下它们的顺序，数据结果一样,只是索引的顺序发生变化：

pd.pivot_table(df,index=[u'主客场',u'对手'])

在这里插入图片描述
通过上面几个操作，我们可以发现:Index就是层次列，要通过透视表获取什么信息就按照相应的顺序设置列，所以在进行pivot之前你也需要足够了解你的数据。

4.3 使用values参数

上面的操作中,我们没有指定需要计算的列,所以默认是对除了"index设定的列"之外的所有列进行计算.
Values可以指定需要计算的列

如果我们只需要james harden在主客场和不同胜负情况下的得分、篮板与助攻三项数据：

pd.pivot_table(df,index=[u'主客场',u'胜负'],values=[u'得分',u'助攻',u'篮板'])

在这里插入图片描述

4.3 使用aggfunc参数

aggfunc参数可以设置我们对数据聚合时进行的函数操作。
当我们未设置aggfunc时，它默认aggfunc='mean’计算均值。

我们还想要获得james harden在主客场和不同胜负情况下的总得分、总篮板、总助攻时：

pd.pivot_table(df,index=[u'主客场',u'胜负'],values=[u'得分',u'助攻',u'篮板'],aggfunc=[np.sum,np.mean])

在这里插入图片描述

4.3 使用columns参数

Columns类似Index可以设置列层次字段，它不是一个必要参数，作为一种分割数据的可选方式。

#fill_value填充空值,margins=True进行汇总
pd.pivot_table(df,index=[u'主客场'],columns=[u'对手'],values=[u'得分'],aggfunc=sum,fill_value=0,margins=1)

在这里插入图片描述

pd.pivot_table(df,index=[u'对手',u'胜负'],columns=[u'主客场'],values=[u'得分',u'助攻',u'篮板'],aggfunc=np.mean,fill_value=0)

在这里插入图片描述

五、pivot_table vs. groupby

你应该理解了pivot_table的用法？是不是在哪见过？

对，Groupby！

pivot_table本质就是分组统计
pivot_table可以用groupby实现
pivot_table的意义在于可以将两个不同的分组维度进行交叉分析
pivot_table

#按照"主客场"和"胜负"进行分组后进行交叉透视分析
pd.pivot_table(df,index='主客场',columns='胜负',values='篮板',aggfunc=np.sum,margins=True)

在这里插入图片描述

groupby

#用groupby实现同样的数据统计
df.groupby(['主客场','胜负'])[['篮板']].sum()

在这里插入图片描述

可以看出,相比pivot_table而言,groupby有以下不同:
- groupby数据没有交叉透视
- groupby没有汇总统计

六、轴转换(透视功能)unstack

unstack对应的是excel中的透视功能,stack正好相反是逆透视

df.unstack(level=-1)
- level:需要进行逆透视(取消堆叠)的索引级别,默认为-1,即最后一级索引
df.stack()
- 不需要指定参数,功能为逆透视所有列

下面用groupby配合unstack实现pivot_table:

table=df.groupby(['主客场','胜负'])[['篮板']].sum()
table.unstack()

在这里插入图片描述

七、交叉表crosstab

crosstab是pivot_table的一种特殊情况

crosstab

pd.crosstab(df['主客场'],df['胜负'])

在这里插入图片描述

pivot_table

pd.pivot_table(df,values='篮板',index='主客场',columns='胜负',aggfunc='count')

在这里插入图片描述

八、小结

透视表的作用【知道】
pandas.pivot_table(data, values=None, index=None, columns=None,aggfunc=‘mean’, margins=False)
- values:要计算的字段
- index:作为行索引的分组字段
- columns:作为列索引的分组字段
- aggfunc:要对values做的计算操作函数
unstack和stack
- unstack(level) level:指定要透视的索引级别
- stack 透视所有列
crosstab pivot_table的特殊情况