天猫用户重复购买预测赛题——赛题理解 + 数据探索
理论知识
-
双十一进行促销,商家希望知道那些用户可能会成为重复购买其店铺商品的忠诚用户,从而精准营销
-
可以用复购率来衡量店铺的用户忠诚程度
- 复购率 = 重复购买用户数/用户样本数量
- 复购率= 重复购买行为次数/用户样本数量
- 100用户 20复购行为 10复购1次 10复购2次 方法1:20/100 方法2:(10x1+10x2)/100
-
影响复购率的因素
- 用户维度
- 性别、身高、体重、月收入、喜好
- 女性客户 品牌偏好
- 商品维度
- 手机类
- 母婴类
- 用户维度
-
缺失值处理
-
count() 统计不为空数据的个数
-
shape() 统计数据样本的个数
-
dropna() 根据各标签的值 是否缺失数据对轴标签过滤,可通过阈值调节
-
fillna() 用定值或者插值 填充缺失值
-
对于数据缺失比较严重一般将其删除
- 数据缺失过大 所蕴含信息较少
- 缺失率过大的数据 可能导致用户在建模中产生偏差 难以追溯
-
-
缺失值较少的情况下,处理方法
| 处理方法 | 说明 |
|---|---|
| 统计量填充 | 连续值:中位数 排除异常值造成的影响 离散型:众数 |
| 特殊值填充 | 填不在正常取值范围的树 -999、0 等表示 |
| 不处理 | XGB和LGB对缺失值不敏感 |
- 缺失值填充方法
| 插补方法 | 说明 | 优点 | 缺点 | 使用环境 |
|---|---|---|---|---|
| 类均值插补 | 数值型:均值 非数值型:众数 |
简单易行,被插补的值比较稳定 | 不能反映缺失值的变异 | 缺失率低首选 |
| 类随机插补 | 聚类填充 使用所有可能的值进行填充 | 能体现数据的变异性 | 依赖于观测值 | 低缺失率 |
| 回归插补 | 基于完整的数据集 建立回归模型 | 方差好估计 | 稳定性依赖于辅助变量 抽样误差不易控制 | 变量间的相关性强 |
| Em插补 | 通过观测数据的边际分布对未知参数进行极大似然估计 | 考虑了缺失值的不确定性 | 计算复杂 | 高缺失率 |
| 多重插补MCMC | 估计出待插补的值,然后加上不同的噪声,形成多组可选插补值 | 考虑了缺失值的不确定性 | 计算复杂 | 高缺失率首选 |
- 不均衡样本
- 很多真实场景中存在长尾效应,也就是二八原理,一个事物20%的特性决定了事物80%的重要性
- 如:在市场营销中即指"企业80%的业务来自20%的顾客"
- 很多场景是假设数据基于多元的正态分布,但是在分类任务中,不同类别的训练样例数目常出现差异较大情况
- 样本不均衡会造成模型对样本数较多的类别过拟合、对较少的类别欠拟合
- 举例说明
- 实际为负 预测为负 9700 预测为正150
- 实际为正 预测为负 50 预测为正150
- 准确率 (9700+150)/(9700+150+50+150) = 0.98
- 如果全部预测为负
- 实际为负 预测为负 9850 预测为正
- 实际为正 预测为负 150 预测为正
- 准确率 0.985 反而增加了 对不平衡样本过拟合了 所以 AUC作为评分
- 解决不平衡样本的方法
- 随机欠采样
- 正50例 负950例 负样本中随机选10% 新训练集95+50
- 平衡数据的同时减少了数据量,加速了训练
- 数据减少影响模型的特征学习能力和泛化能力
- 随机过采样
- 正50例 负950例 正样本复制10次 新训练集500+950
- 相对于欠采样 没有导致数据信息的损失
- 对较少类别的复制 增加了过拟合的可能性
- 基于聚类的过采样方法
- 依据聚类中心进行过采样/欠采样 使原始类中每个集群样本数目相同
- SMOTE算法
- 基于数据清洗的SMOTE
- 去掉一些重叠样本 Tomek Links
- 对于一对样本( x i , x j x_i,x_j xi,xj) x i x_i xi来自minority classes x j x_j xj来自majority classes 。如果离 x i x_i xi最近的少量样本是 x j x_j xj,对 x j x_j xj来说是 x i x_i xi
- 随机欠采样

本文探讨了天猫用户重复购买预测的问题,包括影响复购的因素、数据预处理方法、评估指标AUC的理解,以及数据分布和缺失值处理等内容。
最低0.47元/天 解锁文章
1111





