NLP 数据不平衡问题

数据不平衡是指各类样本数量差异大,影响模型训练。解决方案包括欠采样(如随机删除、原型生成)、过采样(如随机复制、SMOTE算法)和模型算法调整(如CostSensitive、FocalLoss)。NLP中,UDA和EDA等方法能有效利用未标注数据,降低对标注数据的依赖。

数据不平衡

指的是不同类别的样本差异非常大,或者少数样本代表了业务的关键数据,需要对少量样本的模式有很好的下也许。
其中分布不均衡分为两种:

  1. 大数据分布不均衡:数据规模较大,某类别样本占比较小。
  2. 小数据分布不均衡:整体数据规模较小,某类别的样本数量也少。

三种解决方式

1.欠采样

在少量样本数量不影响模型训练的情况下,可以通过对多数样本欠采样,实现少数样本和多数样本的平衡。(减少多数样本的样本量)

1.1 随即删除

1.2 原型生成(PG算法)

2.过采样

在少量样本数量不支撑模型训练的情况下,可以通过对少量样本过采样,实现少数样本和多数样本的均衡。(增加少数样本的样本量)

2.1 随即复制

2.2 样本构建(SMOTE算法)

3. 模型算法

3.1 Cost Sensitive算法

通过引入有倚重的模型算法,针对少量样本着重拟合,来提升对少量样本的特征学习。

3.2 Focal Loss算法(重点)

通过减少易分类样本的权重,是的模型在训练时更专注于难分类的样本。

NLP中数据增强

UDA

一种半监督学习方法,减少对标注数据的需求,增加对未标注数据的利用

EDA

在这里插入图片描述

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值