本次的案例分析主要围绕整体消费情况和用户消费行为进行分析,找出高价值用户人群,了解用户留存以及流失等情况,为平台指定策略提供数据方面的支持和建议
首先第一步是什么呀,大家应该都很熟悉了对不对,数据处理和清洗!
我们导入数据包,同时设置好列标签
我们可以发现该数据集总共有69659行*4列数据,4张列标签分别是:
user_id:用户id
order_dt:下单日期
order_products:购买商品数量
order_amount:购买金额
order_dt字段为数值型,需要将其更改为日期型,同时加入month列,作为备用。
1.pd.to_datetime可以将特定字符串或数字转换为时间格式,其中format参数用于匹配
2.例如19970701,%Y匹配前面4位数字,如果y小写就只匹配2位数字97
3.同理,%m匹配月份07,%d匹配日期01。另外,小时是%h,分钟是%M
从表中我们可以看到,大部分订单只消费了少量商品(平均2.4个),存在极值干扰的可能
还有就是用户消费金额比较稳定,平均消费35.89元,中位数在25.98元,有一定极值干扰
然后我们再来简单观察一下数据集统计情况,可以发现大部分订单只消费了少量商品(平均2.4个),同时用户消费金额比较稳定,平均消费35.89元,但是中位数在25.98元,最大值有1286元,说明存在极值干扰的情况
接下来,我们对用户消费趋势进行分析
先来看月消费金额
然后用matplotlib进行图表展示
可以发现,顾客消费金额在前三月达到了顶峰,之后出现了明显的回落,但是能保持在较稳定的水平。
可以发现,顾客消费金额在前三月达到了顶峰,之后出现了明显的回落,但是能保持在较稳定的水平。
第二点,我们来看看月订单数量
在订单数量方面,我们发现其走势也和消费金额大体一致,前三月在11000左右,后期回落到了2500左右的水平。
接下来来看第三点,月消费人数
用drop duplicates对user_id字段进行去重,从而观察每月消费人数情况,我们可以发现前三月消费人数在8000到10000之间,后续月份消费人数大幅回落,平均消费人数不足2000。
分析完用户消费趋势,我们来看看用户个体的消费情况
- 对用户消费的描述统计
我们发现:
1.用户平均购买了7张CD,但是中位数只有3,说明有小部分用户购买了大量CD
2.用户平均消费金额106元,中位数为43,同样存在极值的干扰
利用散点图对极值敏感的特点,我们可以直观发现极值的存在。
2、用户消费金额的分布情况
从直方图可知,用户消费金额绝大部分呈现集中趋势,小部分异常值干扰了判断,可以使用过滤操作来排除异常。
使用切比雪夫定理来过滤异常值,计算95%数字的情况(order_products平均值为7,标准差为17,7+5*17=92)
- 用户累计消费占比情况
按用户消费金额进行升序排列,由图可知50%的用户仅贡献了15%的消费额度,而排名前5000的用户就贡献了60%的消费额。
接下来,我们需要对用户消费行为进行分析,首先来看用户的首购及末购情况
可以发现,用户第一次购买集中分布在前三个月,其中在2月11日至2月25日有一次剧烈波动。
而在最后一次购买方面,日期分布明显要比首购宽广,但是大量最后一次购买行为集中在前三个月,说明有大量用户只购买了一次之后便不再购买。随着时间递增,最后一次购买数量也在递增,消费呈现流失上升的状况。
第二来看看用户的生命周期
我们发现有一半用户只消费了一次
可以看到用户生命周期受极值的影响非常厉害,中位数仅有0天,但是平均首购与末购相隔天数为134天,而且图表中数据也集中于0天上。
将首购与末购相隔天数大于0的单独挑出来进行观察,我们可以发现有接近1200名用户两次消费间隔天数约在25天内,间隔400到500天的也有很大一部分。
我们用RFM模型来进行用户分层
从RFM分层可知,大量用户为重要保持客户,但这是受到极值的影响,RFM划分标准应以业务为准。
·尽量用小部分用户覆盖大部分额度
·不用为了数据好看划分等级
接下来看看新老客和活跃度这两个方面
若本月没有消费
-若之前是未注册,则依旧为未注册
-若之前有消费,则为流失/不活跃
-其他,为未注册
若本月有消费
-若是第一次消费,则为新用户
-若之前有消费,上个月为不活跃,则为回流
-若上个月未注册,则为新用户
-其他,为活跃用户
我们可以发现活跃用户在减少,非活跃用户不断增加
由上图可知每月不同消费状态的人群变化情况。
然后我们来看看用户的购买周期问题
我们可以发现,用户的购买周期具有以下几个特点:
1、订单周期呈指数型分布
2、用户平均购买周期是68天
3、大部分用户购买周期低于100天
下面看看复购率和回购率的分析过程
复购率:自然月内购买两次以上的用户占比
回购率:某一时期内曾经购买过的用户再次购买的占比
我们可以发现,复购率大体稳定在20%左右,前三个月大量只购买一次的新用户的涌入,导致复购率较低。
我们可以发现绝大部分用户购买一次后不再购买,老用户回购率在30%左右。
好!综上所述,我们来总结一下!
1、cd网站在前三个月涌入了绝大多数的新用户,月订单数量在11000左右,月消费人数在8000到10000之间,之后均回落至2000左右的水平;
2、50%的用户仅贡献了15%的消费额度,消费排名前5000的用户就贡献了60%的消费额,符合二八法则。同时该网站用户平均购买了7张cd,中位数只有3,说明有小部分用户购买了大量CD,同样也符合二八法则;
3、根据用户首购、末购情况,可以发现用户的受次购买集中分布在前三个月,且购买一次后便不再购买,该部分用户占比50%(符合2中提及的50%用户仅贡献15%的消费额度);
4、根据用户分层RFM模型以及新老客、活跃度情况的分析,大量用户为重要保持客户,绝大多数新用户集中在前三个月,之后大部分转为非活跃用户;
5、按用户购买周期分析,用户平均购买周期为68天,大部分用户购买周期集中在100天内;
6、从复购率和回购率的角度来看,该cd网站的复购率答题稳定在20%左右,回购率在30%左右。