Coggle数据科学 | 小白学NLP:STAGE通过共现图数据增强

本文来源公众号“Coggle数据科学”,仅用于学术分享,侵权删,干货满满。

原文链接:小白学NLP:STAGE通过共现图数据增强

尽管大模型在微调后表现出色,但它们需要足够的数据来进行下游任务。数据增强(DA)是解决这一问题的替代方案之一。

数据增强方法主要分为两类:文本生成和文本修改。文本生成方法通过深度学习模型生成句子,如回译法,但计算成本高且生成句子的多样性有限。相比之下,文本修改方法通过简单的修改操作生成多样化的句子,成本较低。

COLING 2024 https://aclanthology.org/2024.lrec-main.1325.pdf

为了解决上述挑战,文章提出了STAGE(Simple Text Data Augmentation by Graph Exploration)方法。 STAGE利用简单的修改操作(如插入、删除、替换和交换),但其独特之处在于通过一个称为共现图(co-graph)的词关系图来选择最佳的操作数。

什么是文本增强?

文本修改方法

文本修改方法通过对文本进行简单的修改操作(如删除、插入、替换等)来生成新的句子。

基于词级别的修改

对单个词(token)进行修改,通常随机选择词并应用简单的操作。这些方法简单有效,但由于操作数的选择是随机的,性能提升有限。

典型的方法包括EDA(Easy Data Augmentation),它通过随机选择词并进行插入、删除、替换等操作来生成新句子。

基于句子片段的修改

不是修改单个词,而是修改句子中的一个片段。它们通常利用额外的信息(如显著性)来选择重要的片段进行修改。然而,片段修改可能会导致句子被过度修改,从而降低性能。</

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值