Pandas使用stack和pivot实现数据透视

Pandas的stack和pivot实现数据透视

  • 经过统计得到多维度指标数据
  • 非常常见的统计场景,指定多个维度,计算聚合后的指标

案例:统计得到“电影评分数据集”,每个月份的每个分数被评分多少次:(月份,分数1-5,次数)

import pandas as pd
import numpy as np

# 文件路径
file_path = r'C:\TELCEL_MEXICO_BOT\A\rating.csv'
df = pd.read_csv(file_path, sep=',')

print(df)
   UserId  MovieId  Rating  Timestamp
0      张三      104       6  978300760
1      张三      120       7  225689358
2      张三      136       4  689893028
3      张三      152       7  669503982
4      李四      168       5  978323894
5      李四      184       3  795889870
6      李四      208       4  965325698
7      李四      240       0  886669835
8      王五      272       9  668956290
9      王五      304       5  978824291
10     王五      336       4  866679835
11     王五      368       8  598308921
12     赵六      400       9  885986792
13     赵六      432       9  868795863

df['pdata'] = pd.to_datetime(df['Timestamp'],unit='s')
print(df)
   UserId  MovieId  Rating  Timestamp               pdata
0      张三      104       6  978300760 2000-12-31 22:12:40
1      张三      120       7  225689358 1977-02-25 03:29:18
2      张三      136       4  689893028 1991-11-11 20:57:08
3      张三      152       7  669503982 1991-03-20 21:19:42
4      李四      168       5  978323894 2001-01-01 04:38:14
5      李四      184       3  795889870 1995-03-22 16:31:10
6      李四      208       4  965325698 2000-08-03 18:01:38
7      李四      240       0  886669835 1998-02-05 09:10:35
8      王五      272       9  668956290 1991-03-14 13:11:30
9      王五      304       5  978824291 2001-01-06 23:38:11
10     王五      336       4  866679835 1997-06-19 00:23:55
11     王五      368       8  598308921 1988-12-16 20:55:21
12     赵六      400       9  885986792 1998-01-28 11:26:32
13     赵六      432       9  868795863 1997-07-13 12:11:03

print(df.dtypes)
UserId               object
MovieId               int64
Rating                int64
Timestamp             int64
pdata        datetime64[ns]
dtype: object

df_group = df.groupby([df['pdata'].dt.month, 'Rating'])['UserId'].agg(pv=np.sum)
print(df_group)
                pv
pdata Rating      
1     5       李四王五
      9         赵六
2     0         李四
      7         张三
3     3         李四
      7         张三
      9         王五
6     4         王五
7     9         赵六
8     4         李四
11    4         张三
12    6         张三
      8         王五

对这样格式的数据,要查看按月份,不同评分的次数趋势是没法实现的
需要将数据变换成每个评分是一列才可以实现

2. 使用unstack实现数据二维透视,目的想要画图对比不同月份的不同评分数据趋势

import pandas as pd
import numpy as np

# 文件路径
file_path = r'C:\TELCEL_MEXICO_BOT\A\rating.csv'
df = pd.read_csv(file_path, sep=',')
print(df)
   UserId  MovieId  Rating  Timestamp
0      张三      104       6  978300760
1      张三      120       7  225689358
2      张三      136       4  689893028
3      张三      152       7  669503982
4      李四      168       5  978323894
5      李四      184       3  795889870
6      李四      208       4  965325698
7      李四      240       0  886669835
8      王五      272       9  668956290
9      王五      304       5  978824291
10     王五      336       4  866679835
11     王五      368       8  598308921
12     赵六      400       9  885986792
13     赵六      432       9  868795863

df['pdata'] = pd.to_datetime(df['Timestamp'],unit='s')  ## 新加一列pdata以Timestamp改变
print(df)
  UserId  MovieId  Rating  Timestamp               pdata
0      张三      104       6  978300760 2000-12-31 22:12:40
1      张三      120       7  225689358 1977-02-25 03:29:18
2      张三      136       4  689893028 1991-11-11 20:57:08
3      张三      152       7  669503982 1991-03-20 21:19:42
4      李四      168       5  978323894 2001-01-01 04:38:14
5      李四      184       3  795889870 1995-03-22 16:31:10
6      李四      208       4  965325698 2000-08-03 18:01:38
7      李四      240       0  886669835 1998-02-05 09:10:35
8      王五      272       9  668956290 1991-03-14 13:11:30
9      王五      304       5  978824291 2001-01-06 23:38:11
10     王五      336       4  866679835 1997-06-19 00:23:55
11     王五      368       8  598308921 1988-12-16 20:55:21
12     赵六      400       9  885986792 1998-01-28 11:26:32
13     赵六      432       9  868795863 1997-07-13 12:11:03

print(df.dtypes)
serId               object
MovieId               int64
Rating                int64
Timestamp             int64
pdata        datetime64[ns]
dtype: object

df_group = df.groupby([df['pdata'].dt.month, 'UserId'])['Rating'].agg(pv=np.sum)
print(df_group)
              pv
pdata UserId    
1     李四       5
      王五       5
      赵六       9
2     张三       7
      李四       0
3     张三       7
      李四       3
      王五       9
6     王五       4
7     赵六       9
8     李四       4
11    张三       4
12    张三       6
      王五       8

df_stack = df_group.unstack()  ## unstack这种可以画线
print(df_stack)
         pv               
UserId   张三   李四   王五   赵六
pdata                     
1       NaN  5.0  5.0  9.0
2       7.0  0.0  NaN  NaN
3       7.0  3.0  9.0  NaN
6       NaN  NaN  4.0  NaN
7       NaN  NaN  NaN  9.0
8       NaN  4.0  NaN  NaN
11      4.0  NaN  NaN  NaN
12      6.0  NaN  8.0  NaN


 

3. 使用pivot简化透视, pivot方法相当于对df使用set_index创建分层索引,然后调用unstack

import pandas as pd
import numpy as np

# 文件路径
file_path = r'C:\TELCEL_MEXICO_BOT\A\rating.csv'
df = pd.read_csv(file_path, sep=',')
print(df)
   UserId  MovieId  Rating  Timestamp
0      张三      104       6  978300760
1      张三      120       7  225689358
2      张三      136       4  689893028
3      张三      152       7  669503982
4      李四      168       5  978323894
5      李四      184       3  795889870
6      李四      208       4  965325698
7      李四      240       0  886669835
8      王五      272       9  668956290
9      王五      304       5  978824291
10     王五      336       4  866679835
11     王五      368       8  598308921
12     赵六      400       9  885986792
13     赵六      432       9  868795863

df['pdata'] = pd.to_datetime(df['Timestamp'],unit='s')
print(df)
   UserId  MovieId  Rating  Timestamp               pdata
0      张三      104       6  978300760 2000-12-31 22:12:40
1      张三      120       7  225689358 1977-02-25 03:29:18
2      张三      136       4  689893028 1991-11-11 20:57:08
3      张三      152       7  669503982 1991-03-20 21:19:42
4      李四      168       5  978323894 2001-01-01 04:38:14
5      李四      184       3  795889870 1995-03-22 16:31:10
6      李四      208       4  965325698 2000-08-03 18:01:38
7      李四      240       0  886669835 1998-02-05 09:10:35
8      王五      272       9  668956290 1991-03-14 13:11:30
9      王五      304       5  978824291 2001-01-06 23:38:11
10     王五      336       4  866679835 1997-06-19 00:23:55
11     王五      368       8  598308921 1988-12-16 20:55:21
12     赵六      400       9  885986792 1998-01-28 11:26:32
13     赵六      432       9  868795863 1997-07-13 12:11:03

df_group = df.groupby([df['pdata'].dt.month, 'UserId'])['Rating'].agg(pv=np.sum)
print(df_group)
              pv
pdata UserId    
1     李四       5
      王五       5
      赵六       9
2     张三       7
      李四       0
3     张三       7
      李四       3
      王五       9
6     王五       4
7     赵六       9
8     李四       4
11    张三       4
12    张三       6
      王五       8

df_rest = df_group.reset_index()
print(df_rest)
    pdata UserId  pv
0       1     李四   5
1       1     王五   5
2       1     赵六   9
3       2     张三   7
4       2     李四   0
5       3     张三   7
6       3     李四   3
7       3     王五   9
8       6     王五   4
9       7     赵六   9
10      8     李四   4
11     11     张三   4
12     12     张三   6
13     12     王五   8

df_pivot = df_rest.pivot(index='UserId', columns='pdata', values='pv')
print(df_pivot)
pdata    1    2    3    6    7    8    11   12
UserId                                        
张三      NaN  7.0  7.0  NaN  NaN  NaN  4.0  6.0
李四      5.0  0.0  3.0  NaN  NaN  4.0  NaN  NaN
王五      5.0  NaN  9.0  4.0  NaN  NaN  NaN  8.0
赵六      9.0  NaN  NaN  NaN  9.0  NaN  NaN  NaN

4. stack,unstack,pivot的语法

先展示下效果 https://pan.quark.cn/s/e81b877737c1 Node.js 是一种基于 Chrome V8 引擎的 JavaScript 执行环境,它使开发者能够在服务器端执行 JavaScript 编程,显著促进了全栈开发的应用普及。 在 Node.js 的开发流程中,`node_modules` 文件夹用于存储所有依赖的模块,随着项目的进展,该文件夹可能会变得异常庞大,其中包含了众多可能已不再需要的文件文件夹,这不仅会消耗大量的硬盘空间,还可能减慢项目的加载时间。 `ModClean 2.0` 正是为了应对这一挑战而设计的工具。 `ModClean` 是一款用于清理 `node_modules` 的软件,其核心功能是移除那些不再被使用的文件文件夹,从而确保项目的整洁性运行效率。 `ModClean 2.0` 是此工具的改进版本,在原有功能上增加了更多特性,从而提高了清理工作的效率精确度。 在 `ModClean 2.0` 中,用户可以设置清理规则,例如排除特定的模块或文件类型,以防止误删重要文件。 该工具通常会保留项目所依赖的核心模块,但会移除测试、文档、示例代码等非运行时必需的部分。 通过这种方式,`ModClean` 能够协助开发者优化项目结构,减少不必要的依赖,加快项目的构建速度。 使用 `ModClean` 的步骤大致如下:1. 需要先安装 `ModClean`,在项目的根目录中执行以下命令: ``` npm install modclean -g ```2. 创建配置文件 `.modcleanrc.json` 或 `.modcleanrc.js`,设定希望清理的规则。 比如,可能需要忽略 `LICENSE` 文件或整个 `docs`...
2026最新微信在线AI客服系统源码 微信客服AI系统是一款基于PHP开发的智能客服解决方案,完美集成企业微信客服,为企业提供7×24小时智能客服服务。系统支持文本对话、图片分析、视频分析等多种交互方式,并具备完善的对话管理、人工转接、咨询提醒等高级功能。 核心功能 ### 1.  智能AI客服 #### 自动回复 - **上下文理解**:系统自动保存用户对话历史,AI能够理解上下文,提供连贯的对话体验 - **个性化配置**:可自定义系统提示词、最大输出长度等AI参数 #### 产品知识库集成 - **公司信息**:支持配置公司简介、官网、竞争对手等信息 - **产品列表**:可添加多个产品,包括产品名称、配置、价格、适用人群、特点等 - **常见问题FAQ**:预设常见问题及答案,AI优先使用知识库内容回答 - **促销活动**:支持配置当前优惠活动,AI会自动向用户推荐 ### 2. 多媒体支持 #### 图片分析 - 支持用户发送图片,AI自动分析图片内容 - 可结合文字描述,提供更精准的分析结果 - 支持常见图片格式:JPG、PNG、GIF、WebP等 #### 视频分析 - 支持用户发送视频,AI自动分析视频内容 - 视频文件自动保存到服务器,提供公网访问 - 支持常见视频格式:MP4、等 ### 3.  人工客服转接 #### 关键词触发 - **自定义关键词**:可配置多个转人工触发关键词(如:人工、客服、转人工等) - **自动转接**:用户消息包含关键词时,自动转接给指定人工客服 - **友好提示**:转接前向用户发送提示消息,提升用户体验 #### 一键介入功能 - **后台管理**:管理员可在对话管理页面查看所有对话记录 - **快速转接**:点击"一键介入"按钮,立即将用户转接给人工客服
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值