EMNLP2021

Introduction
不平衡样本分类可以通过对少数样本过采样或是对多数样本欠采样的方式解决,或者使用GAN进行采样使得采样之后的数据仍然遵循原始数据分布。当然,之前读过的数据增强MixText也是一种方法。
但是,少数类的困难样本通常很难被分类,因为它们嵌入到与多数类重叠的语义区域。比如,如图所示:

如Traditional Embedding展示的那样,红色的重叠区域的样本识别往往是困难的,因为它们在表面形式(例如,n-gram或语法)方面与Mahority样本相似。例如,在数据集Yelp.P中,
my parents didn’t want to go back to beautiful Miami
这是一个困难样本,这是一个表示否定的句子。但是,这与表示积极情绪的句子(Majority样本)
the beauty of Miami made Jessie reluctant to go back
MISO是一种针对困难样本分类的框架,通过互信息约束的语义过采样生成锚实例,帮助模型学习解纠缠的语义表示。它包括语义融合模块、互信息损失和耦合对抗生成器,旨在保持数据分布的同时增强少数类的表示。
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



