NLP中的样本不平衡、长句问题

最新推荐文章于 2024-11-28 23:38:46 发布

Matt_sh

最新推荐文章于 2024-11-28 23:38:46 发布

阅读量2k

点赞数 1

CC 4.0 BY-SA版权

文章标签：算法深度学习

本文链接：https://blog.youkuaiyun.com/Matt_sh/article/details/106003613

探讨关系抽取任务中遇到的样本类别不平衡与句子长度差距大的问题，介绍数据增强、深度预训练及模型层面改进策略，包括EDA_NLP工具包、BERT预训练、FocalLoss损失函数的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

遇到的问题

这次关系抽取任务，在数据方面，遇到了两个问题。

样本类别不平衡
样本句子长度差距过大

关系最多实体对有4W多个，最少的只有十几条。
句子长度从短句（个位数长度）到300不等。

从验证集分析后，模型对于训练样本中关系数目少以及长句均不是有很好地表现。

从数据的角度进行提升自然想到了数据增强。

1.数据层面的思路

1.1数据增强

在机器学习中，对于结构化数据的样本不平衡问题，常见的做法有过采样以及欠采样。
数据不平衡的处理（文本）

但对于文本数据，embedding之后的向量的插值是否意义？或者对于一个句子，我用个编码器将其变为sentence vertor，然后进行采样？这样做法十分少见。

经过调研，对于文本数据，数据增强两个思路。

增、删、换、替【随机增加、删除词、词序交换、同义词替换】
生成【回译、生成模型】

对于第一个，参考这个论文对应的工具包EDA_NLP

对于生成，回译通常是调用现有翻译工具的API来进行，生成模型也有相关论文，个人想到就是生成对抗网络，编码解码的方式来重构文本。

但是，如果要保留文本中特定的信息，比如实体、关系，用生成模型就会很不稳定；回译没有测试过，但应该也会有噪声。

因此，最终对于不平衡的样本就采用了EDA的方式，在原来工具包基础上进行了修改，主要是固定实体的位置，保证其不被替换，删除。

1.2深度预训练

结合语料的预训练模型

参考：邱锡鹏老师团队的文章：How to Fine-Tune BERT for Text Classification?里面有提到如何用Bert融合语料进行深入预训练。项目仓库

其实就是在bert的基础上，继续用其预训练的办法，mask LM与next sentence prediction。主要看你的语料适合哪一种。

但其实，如果是中文的语料，ERNIE的效果可能会更好。BERT和ERNIE谁更强？

2.模型层面的思路

2.1损失函数的设计

样本不平衡会导致什么问题？答案很显然，如果1:99的样本，全部预测为0,（负样本）也会有99%的正确率。

从损失函数的角度，就是误分类的代价太小了，全部预测为负样本，意味着我只分错一个样本，而其他都分对了，这是因为对于错分与正确分类，我是平等的看待。
做法：

根据样本量加权。这个在深度学习框架中有自带的包，加权交叉熵。
提高误分类的代价。在CV领域一个比较好的做法：Focal Loss.
可以看这两篇文章:理解focal loss、Focal loss的思考、剖析focal loss
个人思考：考虑到这个数据的特点，在长句表现不好，长句也是另一种类别不平衡。是否可以对于句子长度进行惩罚，提高长句的误分类代价。

Focal Loss的效果：
试着简单写了多标签分类的例子，直观体验下focal loss。

alpha = 0.5
gamma = 2
labels = np.array([1,0,1,0])
logits = np.array([0.7,0.25,0.1,0.8])
log_logits = np.log(logits)
log_logits_neg = np.log(1-logits)
pos = labels * (labels - logits )
neg = (1 - labels) * logits
fl_loss = 0. - alpha * (pos ** gamma) * log_logits - (1 - alpha) * (neg ** gamma) * log_logits_neg
---------------
y_true = tf.cast(tf.convert_to_tensor(labels),dtype = tf.float32)
y_pred = tf.cast(tf.convert_to_tensor(logits),dtype = tf.float32)
tf.nn.sigmoid_cross_entropy_with_logits(y_true,y_pred)

fl loss = [0.01605037, 0.00899006, 0.93254696, 0.51502013]
ce loss = [0.40318602, 0.8259394 , 0.64439666, 1.1711006 ]

结果十分直观，可以看出，对focal loss而言，误分类与正确分类的损失不是一个数量级，相差较多。而交叉熵的Loss则没有那么明显。

这边有两个超参数 $\gamma与\alpha$ 。

$\gamma$ 的作用就是加大力度，无论是正类负类， $\gamma$ 越大，分正确与分错误的差距就会越大。
$\alpha$ 的作用在于针对不平衡的问题，如果 $\alpha$ =0.25，那么对于负类错分的损失就会比正类错分的损失更大。这就一定程度减小了，全部预测为负类的情况。
这其实是创作者引入了α-balanced loss后，最终形成focal loss。