利用Python实现数据透视表和交叉表

本文介绍Pandas库中透视表pivottable与交叉表crosstab的使用方法,通过实例演示如何进行数据聚合与分析。透视表可按不同维度聚合数据,交叉表则用于计算因子频率。

1、透视表 pivot table
 

pd.pivot_table(data,values=None,index=None,columns=None,aggfunc='mean'
,fill_value=None,margins=False,dropna=True,margins_name='ALL')

其中,

data:DataFrame对象
values:要聚合的列或列的列表
index:数据透视的index,从原始数据的列中筛选
columns:数据透视表的columns,从原始数据的列中筛选
aggfunc:用于聚合的函数,默认为numpy,mean,支持numpy计算方法
import numpy as np
import pandas as pd              
date = ['2019-1-1','2019-1-2','2019-1-3']*3
date_time = pd.to_datetime(date)
df = pd.DataFrame({'date':date_time,
                   'key':list('abcdabcab'),
                   'values':np.random.rand(9)*10})
print('------------原数据------------')
print(df)

print('------------透视表1------------')
#也可以aggfunc='sum'
print(pd.pivot_table(df,values = 'values',index = ['date'],columns='key',aggfunc=np.sum))

print('------------透视表2------------')
#分别以date,key共同做数据透视,值为values:统计不同(date,key)情况下values的计数
#aggfunc=len(或者count):计数
print(pd.pivot_table(df,values = 'values',index = ['date','key'],aggfunc=len))

输出结果:

------------原数据------------
        date key    values
0 2019-01-01   a  6.372699
1 2019-01-02   b  0.649605
2 2019-01-03   c  4.897285
3 2019-01-01   d  7.758373
4 2019-01-02   a  1.576888
5 2019-01-03   b  8.217029
6 2019-01-01   c  5.454403
7 2019-01-02   a  5.072132
8 2019-01-03   b  2.875602
------------透视表1------------
key                a          b         c         d
date                                               
2019-01-01  6.372699        NaN  5.454403  7.758373
2019-01-02  6.649020   0.649605       NaN       NaN
2019-01-03       NaN  11.092630  4.897285       NaN
------------透视表2------------
                values
date       key        
2019-01-01 a       1.0
           c       1.0
           d       1.0
2019-01-02 a       2.0
           b       1.0
2019-01-03 b       2.0
           c       1.0

2、交叉表:crosstab
默认情况下,crosstab计算因子的频率,比如用于str的数据透视分析

pd.crosstab(index,columns,values=None,rownames=None
,colnames=None,aggfunc=None,margins=False,dropna=True,normalize=False)
import numpy as np
import pandas as pd

df = pd.DataFrame({'A':[1,2,2,2,2],
                   'B':[3,3,4,4,4],
                   'C':[1,1,np.nan,1,1]})

print('------------原数据------------')
print(df)

#如果crosstab只接收两个series,他将提供一个频率表
#用A的唯一值,统计B唯一值的出现次数  (A,B)= (1,3)C出现了1次   (A,B)= (2,4)出现了3次
print('------------交叉表1------------')
print(pd.crosstab(df['A'],df['B']))

print('------------交叉表2------------')
print(pd.crosstab(df['A'],df['B'],normalize=True))#以频率的方式显示

print('------------交叉表3------------')
print(pd.crosstab(df['A'],df['B'],values=df['C'],aggfunc=np.sum))#values:根据因子聚合的值数组
#aggfunc:如果未传递values数组,则计算频率表,如果传递数组,则按照指定计算
#这里相当于以A和B界定分组,计算出每组中第三个系列C的值

print('------------交叉表4------------')
print(pd.crosstab(df['A'],df['B'],values=df['C'],aggfunc=np.sum,margins=True))
#margins:布尔值,默认值False,添加行/列边距(小计)

输出结果:

------------原数据------------
   A  B    C
0  1  3  1.0
1  2  3  1.0
2  2  4  NaN
3  2  4  1.0
4  2  4  1.0
------------交叉表1------------
B  3  4
A      
1  1  0
2  1  3
------------交叉表2------------
B    3    4
A          
1  0.2  0.0
2  0.2  0.6
------------交叉表3------------
B    3    4
A          
1  1.0  NaN
2  1.0  2.0
------------交叉表4------------
B      3    4  All
A                 
1    1.0  NaN  1.0
2    1.0  2.0  3.0
All  2.0  2.0  4.0

 

### 使用 Python Pandas 创建数据透视表 Pandas 提供了 `pivot_table` 方法用于创建类似于 Excel 的数据透视表,这是一种非常强大的工具,可以快速汇总、分析可视化大量数据[^3]。 以下是关于如何使用 Pandas 中的 `pivot_table` 方法的具体说明: #### 基础语法 `pandas.pivot_table(data, values=None, index=None, columns=None, aggfunc='mean', fill_value=None, margins=False, dropna=True, margins_name='All')` - **data**: 要进行透视操作的数据框 (DataFrame)。 - **values**: 需要聚合的数值列名。 - **index**: 作为行标签的一维数组或列。 - **columns**: 作为列标签的一维数组或列。 - **aggfunc**: 对数据应用的聚合函数,默认为均值 (`'mean'`)。常见的选项有 `'sum'`, `'count'`, `'avg'` 等。 - **fill_value**: 替代缺失值的值。 - **margins**: 是否添加总计行/列。 #### 示例代码 下面是一个简单的例子,演示如何利用 Pandas 构建数据透视表: ```python import pandas as pd import numpy as np # 制造示例 DataFrame np.random.seed(0) df = pd.DataFrame({ 'A': ['foo', 'bar', 'baz'] * 2, 'B': ['one', 'two'] * 3, 'C': np.random.randint(1, 100, size=6), 'D': np.random.rand(6).round(2) }) print("原始数据:") print(df) # 创建数据透视表 result = pd.pivot_table( df, values='C', # 我们希望对 C 列求 index=['A'], # A 列作为行索引 columns=['B'], # B 列作为列索引 aggfunc=np.sum, # 应用 sum 函数 fill_value=0 # 缺失值填充为 0 ) print("\n数据透视表结果:") print(result) ``` 上述代码会生成一个基于 `A` `B` 列交叉分类的结果格,并计算每种组合下 `C` 列的总[^1]。 如果需要更复杂的多层索引或多值列,则可以通过扩展参数设置完成更多自定义需求[^4]: ```python multi_result = pd.pivot_table( df, values=['C','D'], # 同时处理两列 index=['A'], # 行索引保持不变 columns=['B'], # 列索引也相同 aggfunc={ # 不同列采用不同聚合方法 'C': np.mean, 'D': [min,max,np.sum] }, fill_value=0 # 处理可能存在的 NaNs ) print("\n多重聚合后的数据透视表:") print(multi_result) ``` 此段脚本展示了如何针对不同的目标字段指定各自的聚集方式[^2]。 --- #### 注意事项 当面对较大的数据集或者更加复杂的需求时,应考虑优化内存占用以及提升性能等问题;另外,在实际项目里还需要注意异常情况下的错误捕捉与合理化处理机制设计。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值