数据不均衡的缺点:
会导致模型忽视少数类别的样本,从而影响模型的泛化能力。
解决办法:
数据层面:
1.数据增强
1.1 可以对少数样本进行变换,以增加样本的数量。
1.2. 生成新样本
可以利用图生图模型,比如GAN模型扩增小样本。
2. 欠采样
可以通过随机删除多数样本的方法来平衡样本的均衡性,缺点是可能会丢失重要信息。
算法层面
1. 加权损失函数
在训练时,为少数样本类别分配更高的权重,比如对少数样本的损失函数乘以100以增加权重。
2. 难例挖掘
将第一次训练的错误样本提取出来进行下一轮的训练。
评估层面
增加多个维度的评估指标,以获得增加综合的评价体系。
模型层面
使用迁移学习的方法,先在相似数据上进行训练,然后再保存模型权重,相当于是预训练模型,接着再微调至目标任务。
3061

被折叠的 条评论
为什么被折叠?



