EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks阅读笔记

EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks

EDA包括四种简单但很有效的操作:同义词替换、随机插入、随机转换、随机删除。
这种方法在CNN和LSTM-RNN网络中都有很好的表现。

  • synonym replacement ,随机选择n个非停用词从他的同义词中随机选择进行替换;
  • random insertion ,从非停用词中随机选择这个词的同义词,在句子中的任意位置进行插入,重复n次;
  • random swap 随机在句子中选择2个词并交换他们的位置,重复n次;
  • random deletion,以概率P随机删除句子中的每个词;
    *注:SR、RI、RS中的n代表着一个句子中要改变的单词个数,在这里插入图片描述代表每个单词在句子中会被改变的概率,l是句子的长度。
    在这里插入图片描述
    在RD中,p=在这里插入图片描述
    在这里插入图片描述

实验

本文是基于五个基准文本分类任务和两个网络模型去评估EDA的。

  • SST-2 (Stanford Senti-ment Treebank)五分类问题
    数据介绍以及Python处理地址:https://www.jianshu.com/p/6c23c6b85cf3

  • CR(customer reviews)

  • SUBJ(subjectivity/objectivity dataset) 二分类问题
    数据集获取链接:https://www.cs.cornell.edu/home/llee/data/search-subj.html
    数据集简介:
    $ann_label: 0到3之间的数字。这是由注释者分配的原始标签;它被贴上了标签根据以下约定
    关于四级分类方案):
    0.单一的审查
    1.多个评论
    2.回顾和客观信息的结合
    3.目标文件
    $ exp_label:{主题| obj}
    为了实验目的,我们随后将这四个类拆分分为subj(“主观”)和obj(“客观”)两类,其中“主观”类别涵盖了四种原创中的前三种标签。

  • TREC(question type dataset)该数据集包含9000多条问句,标注有6个类别,包括人物、地点、数量、方式、时间和原因,可用于训练短文本问题分类模型
    TrecQA原始数据如下:
    https://trec.nist.gov/data/qa/2017_LiveQA/med-qs-and-reference-answers.xml
    在这里插入图片描述
    标记数据如下:
    标记数据连接 https://github.com/castorini/data/blob/master/TrecQA/data在这里插入图片描述

  • PC (Pro-Con dataset)

实验数据集分析

共同点:

五个数据集都是情感分析类
数据格式都是
(label,sentence)/(sentence,label)

不同点:

SST-2是五分类问题,其他都是二分类问题
SUBJ是主客观情感分类

总结

在关系抽取中,我们的数据集是1对1 的形式,但是文本增强的数据集是多对1的形式,此外我们的数据集要保证标签与标签之间存在关系以及连续性,但是文本增强的数据集的标签之间是独立的。
经过分析发现,可能文本增强不适合我们这类型的seq-seq模型,同时经过查阅部分关系抽取以及知识图谱构建的文献发现,在关系抽取任务中,基本不进行文本增强。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

2674222

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值