目录
1 EDA
EDA 使用传统的文本数据增强方法,可以在文本数据集小的情况下提升文本分类的性能。 出自论文《EDA: Easy Data Augmentation Techniques for Boosting Performance onText Classification Tasks》
1.1 具体方法
EDA 主要有三个参数:n (表示一个句子修改多少个单词),α (修改句子中多少比例的单词),n_aug (一个句子生成多少个新句子)。
论文中把 n 设置为 α×L,L 为句子长度,即句子越长可以修改的单词越多。
EDA 主要采用了四种操作进行数据增强:
(1) 同义词替换(Synonyms Replace SR):随机从句子中抽取 n 个词 (抽取时不包括停用词),然后随机找出抽取这些词的同义词,用同义词将原词替换。例如将句子 "我比较喜欢猫" 替换成 "我有点喜好猫"。通过同义词替换后句子大概率还是会有相同的标签的。
(2) 随机插入(Randomly Insert RI):随机从句子中抽取 1 个词 (抽取时不包括停用词),然后随机选择一个该词的同义词,插入原来句子中的随机位置,重复这一过程 n 次。例如将句子 "我比较喜欢猫" 改为 "我比较喜欢猫有点"。
(3) 随机交换(Randomly Swap