电商网站数据预处理
- 提取2019年的订单数据
- 处理业务流程不符的数据(支付时间早于下单时间、支付时长超过30分钟、订单金额小于0、支付金额小于0)
- 处理渠道为空的数据(补充众数)
- 处理平台类型字段(去掉多余的空格,保持数据一致)
- 添加折扣字段,处理折扣大于1的字段(将支付金额修改为“订单金额*平均折扣”)
- 交易总金额(GMV)、总销售额、实际销售额、退货率、客单价
- 每月GMV及趋势分析(折线图)
- 流量渠道来源拆解GMV占比(饼图)
- 用户复购率分析
import numpy as np
import pandas as pd
# 0.从Excel文件中读取订单数据
order_df = pd.read_excel(r'C:\Users\wby\Desktop\某电商网站订单数据.xlsx', index_col='id')
order_df
order_df.info()
# 1.提取2019年的订单数据
order_df = order_df[order_df.orderID.str.contains('2019')]
# 2.处理业务流程不符的数据(支付时间早于下单时间、支付时长超过30分钟、订单金额小于0、支付金额小于0)。
order_df = order_df[(order_df['orderTime']<=order_df['payTime']) & ((order_df['payTime'] - order_df['orderTime']).dt.total_seconds() <= 1800) & (order_df['orderAmount']>=0) & (order_df['payment']>=0)]
order_df
order_df = order_df.rename(columns={'chanelID':'ch