本次分析的数据为某电商平台真实脱敏数据,数据格式如下:
| 字段名 | 字段说明 |
|---|---|
| Id | 行id |
| orderID | 订单id |
| UserID | 用户id |
| goodsID | 商品id |
| orderAmount | 订单金额 |
| Payment | 支付金额 |
| ChanelID | KOL广告渠道id |
| platformType | 平台类型 |
| orderTime | 订单时间 |
| payTime | 支付时间 |
| chargeback | 是否退货 |
加载数据
加载处理数据需要的库
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import warnings
plt.rcParams['font.family'] = 'SimHei'
plt.rcParams['axes.unicode_minus'] = False
warnings.filterwarnings('ignore')
读取数据文件,并将行id设置为index
data = pd.read_excel('order2019.xlsx', index_col='id')
data.head()

查看数据结构
data.info(

本文介绍了对某电商平台2019年数据的清洗过程,包括加载数据、提取业务相关数据、处理异常值(如支付时间间隔过大、负支付金额、已下架商品等),删除重复订单,创建订单折扣列,并对缺失值进行填充。清洗完成后,数据适合用于后续的分析和可视化。
最低0.47元/天 解锁文章
623

被折叠的 条评论
为什么被折叠?



