电商数据分析
一.数据描述
订单顺序编号 | 订单号 | 用户名 | 商品编号 | 订单金额 | 付款金额 |
---|
二.分析角度
1.整体角度----探索每个月有效的订单,以及销售额
2.个人角度----统计第一次购买的数量,以及最新时间购买的人数
3.用户画像----使用RFM模型对用户进行分类
三.数据清洗
pd.set_option('display.unicode.ambiguous_as_wide', True)
pd.set_option('display.unicode.east_asian_width', True)
plt.rcParams['font.family'] = 'Microsoft YaHei'
plt.rcParams['axes.unicode_minus'] = False
首先设置如上,前两行是让字段整体输出,后两行是使画图显示中文
1.处理缺失值
# 01 空值处理
print(data.isnull().sum())
data['渠道编号'].fillna(data['渠道编号'].mode(), inplace=True)
print("----------------------")
空值字段只有渠道的编号,数量较少,可以采用删除,本次采用使用众数填充的方法处理空值。
2.重复值
# 02 重复值处理
print("数据的重复值个数为", data.duplicated().sum())
无重复值。
3.异常值
本次数据主要是2021年的数据,对于其他时间段的数据进行删除,并且检查付款金额字段数据
print("数据异常值数据\n", data[data['付款金额'] < 0]['付款金额'])
data.drop(data[data['付款金额'] < 0]['付款金额'].index, inplace=True)
# 增加下日期列与月份
data['订单日期'] = pd.to_datetime(data['付款时间'], format='%Y-%m-%d').dt.date
data['月份'] = pd.to_datetime(data['订单日期']