电商网站数据预处理

本文详细介绍了对2019年电商网站订单数据的预处理步骤,包括处理异常支付时间、金额、空缺数据,以及平台类型字段的一致性。此外,还添加了折扣字段并分析了交易总金额(GMV)、销售趋势、渠道来源对GMV的贡献以及用户复购率。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

电商网站数据预处理

  1. 提取2019年的订单数据
  2. 处理业务流程不符的数据(支付时间早于下单时间、支付时长超过30分钟、订单金额小于0、支付金额小于0)
  3. 处理渠道为空的数据(补充众数)
  4. 处理平台类型字段(去掉多余的空格,保持数据一致)
  5. 添加折扣字段,处理折扣大于1的字段(将支付金额修改为“订单金额*平均折扣”)
  6. 交易总金额(GMV)、总销售额、实际销售额、退货率、客单价
  7. 每月GMV及趋势分析(折线图)
  8. 流量渠道来源拆解GMV占比(饼图)
  9. 用户复购率分析
import numpy as np
import pandas as pd
# 0.从Excel文件中读取订单数据
order_df = pd.read_excel(r'C:\Users\wby\Desktop\某电商网站订单数据.xlsx', index_col='id')
order_df
order_df.info()
# 1.提取2019年的订单数据
order_df = order_df[order_df.orderID.str.contains('2019')]
# 2.处理业务流程不符的数据(支付时间早于下单时间、支付时长超过30分钟、订单金额小于0、支付金额小于0)。
order_df = order_df[(order_df['orderTime']<=order_df['payTime']) & ((order_df['payTime'] - order_df['orderTime']).dt.total_seconds() <= 1800) & (order_df['orderAmount']>=0) & (order_df['payment']>=0)]
order_df
order_df = order_df.rename(columns={'chanelID':'ch
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值