前言:
近日刷一波数据分析师面试题,学习别人的建议,总结和提升自己的思维。
01 自己思路
1.恶意刷单什么意思?是竞争对手恶意购买产品进行差评?
2.刷单:就是找人购买、评价、好评、晒图、差评;
3.选择因素:销量、好评、差评、地区;
4.把一整年的单量找出来,从每个月、每个星期开始,根据销量、好评、差评、地区做分段,查出的每个时间段的频率;
5.对频率进行分析,查看其密度值;
6.使用折线图,频率过高,差评量异常过高,就有可能是恶意刷单。
02 别人参考
分类问题用机器学习方法建模解决,我想到的特征有:
1)商家特征:商家历史销量、信用、产品类别、发货快递公司等;
2)用户行为特征:用户信用、下单量、转化率、下单路径、浏览店铺行为、支付账号;
3)环境特征(主要避免机器刷单):地区、ip、手机型号;
4)异常值检测:ip地址经常变动、经常清空cookie信息、账号近期交易成功率上升等;
5)评论文本检测:刷单的评论文本可能套路较为一致,计算与已标注评论文本的相似度作为特征;
6)图片相似度检测:同理,刷单可能重复利用图片进行评论。
03 个人总结
1.消费者:进入后、浏览店铺、下单、转化、评论、用户信用、支付账号;
2.商家:产品类别、历史销量、评论量(文本、图片)。