本文来源公众号“Coggle数据科学”,仅用于学术分享,侵权删,干货满满。
尽管大模型在微调后表现出色,但它们需要足够的数据来进行下游任务。数据增强(DA)是解决这一问题的替代方案之一。
数据增强方法主要分为两类:文本生成和文本修改。文本生成方法通过深度学习模型生成句子,如回译法,但计算成本高且生成句子的多样性有限。相比之下,文本修改方法通过简单的修改操作生成多样化的句子,成本较低。
COLING 2024 https://aclanthology.org/2024.lrec-main.1325.pdf
为了解决上述挑战,文章提出了STAGE(Simple Text Data Augmentation by Graph Exploration)方法。 STAGE利用简单的修改操作(如插入、删除、替换和交换),但其独特之处在于通过一个称为共现图(co-graph)的词关系图来选择最佳的操作数。
什么是文本增强?
文本修改方法
文本修改方法通过对文本进行简单的修改操作(如删除、插入、替换等)来生成新的句子。
基于词级别的修改
对单个词(token)进行修改,通常随机选择词并应用简单的操作。这些方法简单有效,但由于操作数的选择是随机的,性能提升有限。
典型的方法包括EDA(Easy Data Augmentation)
,它通过随机选择词并进行插入、删除、替换等操作来生成新句子。
基于句子片段的修改
不是修改单个词,而是修改句子中的一个片段。它们通常利用额外的信息(如显著性)来选择重要的片段进行修改。然而,片段修改可能会导致句子被过度修改,从而降低性能。</