样本不均衡导致分类结果较差的本质原因
样本不均衡包括样本类别不均衡和样本难易程度不均衡,样本不均衡导致的分类效果较差本质上是样本难易程度不均衡导致的[^1]。
对本质原因的个人理解
个人理解,如果一个样本集中的所有样本都能够被一个模型非常容易的进行分类,即使样本不同类别的数量差距较大,模型也能够达到比较好的分类效果。
1、人眼(可以看做一个模型)去区分鲸鱼和狗两种动物,由于两个类别的样本差别较大,人眼(模型)非常容易进行区分,即使鲸鱼样本集中包括99990个鲸鱼样本,狗样本集中包括10个样本,人眼(模型)分类的准确率也会达到100%。
2、相反,在区分饼干和狗的例子中,由于饼干和狗特别相似,即使饼干样本集和狗样本集同样都包含1000个样本,则人眼(模型)也会存在很多误判。
(图片引用自网络)

解决方法
网上多处资料(参考:https://www.sohu.com/a/306064501_500659)已指出:样本集中包含大量容易分类的简单样本,容易分类的简单样本对模型参数的更新贡献较小,但是当大量简单样本产生的loss叠加时,就会对模型产生主导作用,个人理解是在网络的训练过程中,参数更新是由样本产生的loss反向传播得到的,而整个样本集产生的loss主要是由大量简单样本叠加产生的,因此说大量简单样本对模型占据了主导作用。
容易分类的简单样本对模型参数更新贡献较小,不容易分类的样本对模型参数的更新贡献较大,模型参数的更新又是由损失函数值决定的,因此相关文献在损失函数的角度提出了相关解决方案。网络中已存在许多详细的介绍(https://www.sohu.com/a/306064501_500659、http://www.pianshen.com/article/7435282398/)在这里只对其进行一点简单的总结和记录一下自己对解决

探讨样本不均衡对分类效果的影响,分析样本难易程度不均衡的本质原因,介绍OHEM-LOSS、FOCAL-LOSS及GHM-CLOSS等解决样本不均衡问题的方法。
最低0.47元/天 解锁文章
1262

被折叠的 条评论
为什么被折叠?



