模型优化中常见问题和解决思路
1 训练集上欠拟合,auc等度量指标不佳
训练集上欠拟合一般是由于数据中特征或模型无法充分刻画预测的目标导致。可以以下的优化思路:
1) 加新的好特征
好的特征可以是新的业务强相关特征,也可以是根据前面文章特征工程部分的思路提取的特征。
特别关注和预测目标直接相关特征的细粒度刻画。例如ctr预测中,将历史ctr点击率通过不同角度进行交叉深度表示,例如时间维度:这个词过去x天、过去x周、过去x月、白天、晚上、工作日、周末的历史ctr统计;不同广告位上的ctr;不同广告样式下的ctr;不同相关性系数的ctr;不同类别用户下的ctr等。也可以做多维度特征交叉组合,产生细粒度的刻画特征。 具体特征工程部分可以参考:《机器学习模型应用以及模型优化的一些思路》
2) 模型上可以调低训练步长、增大树的个数以及深度等可以让模型更精细化学习的参数。
3) 使用更复杂的模型,例如深度学习或者组合模型等。
4) 如果某类样本存在预测特别差,可以考虑进行上下采样的处理,使的训练样本的分布向预测的目标倾斜。
2 训练集上过拟合,但预测集效果差(泛化能力差)
1)增大数据集
可能是因为数据集少,导致对训练集过度学习。
直接思路就是扩展数据集,除了常规根据业务特性加入更大范围或者更长时间段的方式外,也可以通过时间窗口滑动、上