天猫用户重复购买预测赛题——赛题理解 + 数据探索

本文探讨了天猫用户重复购买预测的问题,包括影响复购的因素、数据预处理方法、评估指标AUC的理解,以及数据分布和缺失值处理等内容。

理论知识

  • 双十一进行促销,商家希望知道那些用户可能会成为重复购买其店铺商品的忠诚用户,从而精准营销

  • 可以用复购率来衡量店铺的用户忠诚程度

    • 复购率 = 重复购买用户数/用户样本数量
    • 复购率= 重复购买行为次数/用户样本数量
    • 100用户 20复购行为 10复购1次 10复购2次 方法1:20/100 方法2:(10x1+10x2)/100
  • 影响复购率的因素

    • 用户维度
      • 性别、身高、体重、月收入、喜好
      • 女性客户 品牌偏好
    • 商品维度
      • 手机类
      • 母婴类
  • 缺失值处理

    • count() 统计不为空数据的个数

    • shape() 统计数据样本的个数

    • dropna() 根据各标签的值 是否缺失数据对轴标签过滤,可通过阈值调节

    • fillna() 用定值或者插值 填充缺失值

    • 对于数据缺失比较严重一般将其删除

      • 数据缺失过大 所蕴含信息较少
      • 缺失率过大的数据 可能导致用户在建模中产生偏差 难以追溯
  • 缺失值较少的情况下,处理方法

处理方法 说明
统计量填充 连续值:中位数 排除异常值造成的影响
离散型:众数
特殊值填充 填不在正常取值范围的树 -999、0 等表示
不处理 XGB和LGB对缺失值不敏感
  • 缺失值填充方法
插补方法 说明 优点 缺点 使用环境
类均值插补 数值型:均值
非数值型:众数
简单易行,被插补的值比较稳定 不能反映缺失值的变异 缺失率低首选
类随机插补 聚类填充 使用所有可能的值进行填充 能体现数据的变异性 依赖于观测值 低缺失率
回归插补 基于完整的数据集 建立回归模型 方差好估计 稳定性依赖于辅助变量 抽样误差不易控制 变量间的相关性强
Em插补 通过观测数据的边际分布对未知参数进行极大似然估计 考虑了缺失值的不确定性 计算复杂 高缺失率
多重插补MCMC 估计出待插补的值,然后加上不同的噪声,形成多组可选插补值 考虑了缺失值的不确定性 计算复杂 高缺失率首选
  • 不均衡样本
    • 很多真实场景中存在长尾效应,也就是二八原理一个事物20%的特性决定了事物80%的重要性
    • 如:在市场营销中即指"企业80%的业务来自20%的顾客"
    • 很多场景是假设数据基于多元的正态分布,但是在分类任务中,不同类别的训练样例数目常出现差异较大情况
    • 样本不均衡会造成模型对样本数较多的类别过拟合、对较少的类别欠拟合
    • 举例说明
      • 实际为负 预测为负 9700 预测为正150
      • 实际为正 预测为负 50 预测为正150
      • 准确率 (9700+150)/(9700+150+50+150) = 0.98
      • 如果全部预测为负
      • 实际为负 预测为负 9850 预测为正
      • 实际为正 预测为负 150 预测为正
      • 准确率 0.985 反而增加了 对不平衡样本过拟合了 所以 AUC作为评分
  • 解决不平衡样本的方法
    • 随机欠采样
      • 正50例 负950例 负样本中随机选10% 新训练集95+50
      • 平衡数据的同时减少了数据量,加速了训练
      • 数据减少影响模型的特征学习能力和泛化能力
    • 随机过采样
      • 正50例 负950例 正样本复制10次 新训练集500+950
      • 相对于欠采样 没有导致数据信息的损失
      • 对较少类别的复制 增加了过拟合的可能性
    • 基于聚类的过采样方法
      • 依据聚类中心进行过采样/欠采样 使原始类中每个集群样本数目相同
    • SMOTE算法
      • Synthetic Minority Oversampling Technique 合成少数类过采样技术
      • 随机复制少数样本 缺少泛化能力
      • SMOTE对少数样本进行人工合成
      • 参考 网址1 网址2 网址3
      • 步骤:
        • 对于少数类中每一个样本x,以欧氏距离为标准计算它到少数类样本集中所有样本的距离,得到其k近邻
        • 根据样本不平衡比例设置一个采样比例以确定采样倍率N,对于每一个少数类样本x,从其k近邻中随机选择若干个样本,假设选择的近邻为o
        • 对于每一个随机选出的近邻o,分别与原样本按照公式**o(new)=o+rand(0,1)*(x-o)**构建新的样本。
      • 会增大类别间的重叠
    • 基于数据清洗的SMOTE
      • 去掉一些重叠样本 Tomek Links
      • 对于一对样本( x i , x j x_i,x_j xi,xj) x i x_i xi来自minority classes x j x_j xj来自majority classes 。如果离 x i x_i xi最近的少量样本是 x j x_j xj,对 x j x_j xj来说是 x i x_i xi
评论 2
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值