1. 样本不均衡问题
通常分类机器学习任务期望每种类别的样本是均衡的,即不同目标值样本的总量接近相同。在梯度下降过程中,不同类别的样本量有较大差异时,很难收敛到最优解。
会导致模型泛化能力大大降低,对比例大的样本造成过拟合,预测偏向样本数较多的分类。
1.1 对负样本采样应遵循的原则
1. 对每个用户,要保证正负样本的平衡(数目相似)。
如点击问题,对于经常无行为(不点击)的用户,尽量少采样。
2. 对每个用户采样负样本时,要选取那些很热门,而用户却没有行为的物品。
一般认为,很热门而用户却没有行为更加代表用户对这个物品不感兴趣。因为对于冷门的物品,用户可能压根没在网站中发现这个物品,所以谈不上是否感兴趣。
2. 样本不均衡
2.1 采样算法
2.1.1 欠采样(undersampling)
又叫下采样,减少样本数较多的样本,采用丢弃或选取部分样本的方法。但若随机丢弃负样本,可能丢失一些重要信息(导致模型只学习到总体模式的一部分 )。其代表性算法为EasyEnsemble。
2.1.2 过采样(oversampling)
又叫上采样,增加少数样本,比较常见的方法有:

最低0.47元/天 解锁文章
1254





