五月的echo
神的孩子全跳舞
展开
-
Cluster & Tune: Boost Cold Start Performance in Text Classification,ACL2022
在真实的场景中,当标记数据稀缺时,文本分类任务通常存在冷启动的现象(也就是标记文本数量太少时很容易过拟合)。本文提出了一种方法来提高这类模型的性能,即在预处理阶段和微调阶段之间增加一个中间的无监督分类任务。作为中间任务,进行聚类,并训练预训练模型预测聚类标签。本文在各种数据集上测试了这个假设,结果表明,当可用于微调的标记实例数量只有几十到几百个时,这个额外的分类阶段可以显著提高性能,主要是针对主题分类任务。之所以可以这样做,因为合理的中间任务有望为最后的微调阶段提供一个更好的起点,在目标任务可用的稀缺标.原创 2022-05-01 15:58:30 · 927 阅读 · 0 评论 -
Dual Contrastive Learning: Text Classification via Label-Aware Data Augmentation,arxiv2022
我是目录!IntroductionPreliminariesDual Contrastive LearningDual Contrastive LossTheoretical Justification of DualCLExperiments北航出的一篇很有趣的文章,旨在将对比学习引入到有监督的学习框架中。引入了一个双重对比学习(DualCL)框架,该框架可以在同一空间中同时学习输入样本的特征和分类器的参数。具体来说,DualCL将分类器的参数视为与不同标签相关联的增强样本,然后利用输入样本与增强样本.原创 2022-03-31 18:19:02 · 1769 阅读 · 0 评论 -
Prompt-Learning for Short Text Classification
本文提出了一种基于知识扩展的快速学习的小样本短文本分类方法,该方法在扩展标签词空间时既考虑短文本本身,又考虑类名。具体来说,从Probase等开放知识图中检索与该类别实体相关的短文本前NNN个概念,通过计算所选概念与类标签之间的距离进一步细化扩展的标签词。如图所示,business作为主要的类名,但是可以从Probase中检索出一众具有类型主题的实体(单词),并可以借此对P-tuning进行增强。MethodologyP-tuning或者叫Prompt-learning的第一步是将标签空间与输入空.原创 2022-03-31 10:04:18 · 2300 阅读 · 0 评论 -
Metadata-Induced Contrastive Learning for Zero-Shot Multi-Label Text Classification, WWW2022
本文研究零样本情境下基于元数据的多标签文本分类,它不需要任何带标签的标注文档,只依赖于标签表面名称和描述。为了训练一个分类器来计算文档和标签之间的相似度分数,提出了一种新的元数据诱导对比学习(MICoL)方法。PRELIMINARIESMetadata, Meta-Path, and Meta-Graph元数据是指网络中的额外信息,在本文使用的学术网络中,通常包含作者、机构、主题等信息。学术网络被建模成一个很典型的异构图(HIN),其中不同类型节点、边之间的构图pattern可以用meta-pat.原创 2022-03-29 15:11:25 · 1435 阅读 · 0 评论 -
Don’t Miss the Labels: Label-semantic Augmented Meta-Learner for Few-Shot Text Classification
ACL finding 2021本文证明了分类标签信息可以用来从一个预训练语言模型(如BERT)中提取输入文本的更有区别的特征表示,并且可以在样本稀缺的情况下实现性能提升。在这一发现的基础上,提出了一个名为标签语义增强元学习者(LaSAML)的框架来充分利用标签语义。我们系统地研究了该框架中的各种因素,并表明它可以插入现有的小样本文本分类系统中。模型总体框架如图所示:Method首先,Bert的输入被修改为:“[CLS] sentence [SEP] class name [SEP]”,这已经是原创 2022-03-25 10:19:52 · 663 阅读 · 0 评论 -
Self-training Improves Pre-training for Natural Language Understanding,NAACL2021
本文研究了半监督学习中通过自监督训练利用非标记数据的一种方法。具体来说,引入了SentAugment,这是一种数据增强方法,它从有标签的数据中计算特定于任务的查询嵌入,从从网络上爬取的数十亿个无标签的句子库中检索句子(/(ㄒoㄒ)/~~果然是Facebook AI才配做的工作啊)。与以前的半监督方法不同,本文的方法不需要域内无标记数据,因此更普遍适用(我觉得咋不太实用呢,主要是数据量太大了穷逼应该用不起吧?)。其实本文的思路很简单,捋一遍论文就知道了。Approach总体的结构图如图所示:Lar.原创 2022-03-04 15:05:38 · 1969 阅读 · 0 评论 -
Revisiting Self-Training for Few-Shot Learning of Language Model,EMNLP2021
Method本文提出了一个基于自监督语言模型的少样本文本学习框架SFLM。给定文本样本,通过屏蔽语言模型的提示学习方法,为同一个样本生成弱增强和强增强两个视图,SFLM在弱增强版本上生成一个伪标签。然后,当与强增广版本进行微调时,模型预测相同的伪标签。整体的模型如下:首先,给定一个有标签数据集X\mathcal{X}X,其中每个类别数目为NNN,无标签的训练数据集为U\mathcal{U}U,其中每个类被的数量为μN\mu NμN,μ\muμ是一个大于1的整数,用于保证有标签的数量一直是少于无标记.原创 2022-03-01 15:35:58 · 550 阅读 · 0 评论 -
Adversarial Self-Supervised Data-Free Distillation for Text Classification,EMNLP2020
这是一篇非常有趣的论文。大多数KD(知识蒸馏)算法,尤其是在NLP中,都依赖于原始训练数据集的可访问性,而原始训练数据集可能由于隐私问题而不可用。为什么有些知识会不可用?比如,GPT2还没有公布训练数据,只有已经调优的模型;又或者GPT3训练的数据量级太大,普通人(穷逼)根本没办法存储、使用。因此文本探究了如何在没有训练原始数据的情况下进行知识蒸馏。注意这里没有原始数据,但是已经有很好拟合原始数据的模型了,也就是Teacher模型。具体来说,提出了一种新颖的两阶段无数据蒸馏方法——对抗自监督无数据蒸馏(.原创 2022-02-25 17:44:40 · 804 阅读 · 1 评论 -
ContextualizedWeak Supervision for Text Classification,ACL2022
在以生成标签对应关键词为核心思想的半监督文本分类中,现有的大多数方法都以一种与上下文无关的方式生成伪标签,因此,人类语言的模糊性和上下文依赖性一直被忽视。本文利用词出现的上下文化表示和种子词信息来自动区分同一词的多种解释,从而创建上下文化语料库,该语境化语料库进一步以迭代的方式训练分类器和扩展种子词,最终提升半监督文本表示的性能。Overview问题的定义还是那几种符号,跳过:本文提出了一个框架,ConWea,构建语境话的弱监督模型。在这里,语境化体现在两个方面:语料库和种子词。因此,相应地开发了.原创 2022-02-24 17:29:24 · 1127 阅读 · 0 评论 -
SALNet: Semi-Supervised Few-Shot Text Classification with Attention-based Lexicon Construction
AAAI2021.本文考虑了低资源文本分类情境下对class对应的关键词进行扩充的问题,每个类收集一组被称为lexicon的词集,根据分类任务计算的注意力权重,并根据注意力系数对关键词进行再分配(注意力的可视化如图1所示)。之后,利用分类器与所构建的lexicon的组合来标记新的数据来引导分类器,以提高预测的准确性。Methods与其他的弱(半)监督方法一样,本文提出的方法依旧是迭代的过程,大致可以分为如下几步:从给定的标签数据创建一个基本分类器,这里训练分类器的样本是非常少的。分类器必须包含.原创 2022-02-23 14:14:47 · 1399 阅读 · 0 评论 -
Weakly-supervised Text Classification Based on Keyword Graph,EMNLP2021
一般来说弱监督文本分类采用的方法都是通过找寻和标签类别的相似词来代表整个类,然后通过关键词对无标签数据进行伪标签派生。但是现有的方法对关键字的处理是独立的,因此忽略了关键字之间的相关性。因此,本文提出了一个能够引入关键词之间相关性的方法。具体来说,在每次迭代的过程中,首先构造一个关键字图,因此分配伪标签的任务被转换为注释关键字子图。为了提高标注质量,引入了一个自监督任务对子图标注器进行预训练,然后对其进行微调。利用子图注释器生成的伪标签,我们训练一个文本分类器来分类无标签的文本。文本聚类一个例子说明关键.原创 2022-02-22 19:45:06 · 2678 阅读 · 0 评论 -
Coarse2Fine: Fine-grained Text Classification on Coarsely-grained Annotated Data
EMNLP2021目录IntroductionProblem FormulationC2F FrameworkInitial Fine-grained Weak SupervisionTailored Language Model TrainingHierarchy-Aware RegularizationPseudo Training Data Generation, Text Classifier, & Weak Supervision UpdateExperiments参考文献Intro.原创 2022-02-08 11:50:03 · 1541 阅读 · 0 评论 -
Difficult Samples Re-embedding via Mutual Information Constrained Semantically Oversampling
EMNLP2021Introduction不平衡样本分类可以通过对少数样本过采样或是对多数样本欠采样的方式解决,或者使用GAN进行采样使得采样之后的数据仍然遵循原始数据分布。当然,之前读过的数据增强MixText也是一种方法。但是,少数类的困难样本通常很难被分类,因为它们嵌入到与多数类重叠的语义区域。比如,如图所示:如Traditional Embedding展示的那样,红色的重叠区域的样本识别往往是困难的,因为它们在表面形式(例如,n-gram或语法)方面与Mahority样本相似。例如,在数原创 2022-02-07 21:46:40 · 461 阅读 · 1 评论 -
FLiText: A Faster and Lighter Semi-Supervised Text Classification with Convolution Networks
本文发表于EMNLP2020。本文提出了一个基于卷积模型的蒸馏方法,实现了一个轻量级的、快速的半监督文本分类框架FLiText,相比于Bert等大规模预训练模型,蒸馏模型更具备实际应用价值。Method模型总体的框架如下,大致分为激励网络和目标网络两部分:激励器网络(预训练语言模型)利用一致性正则化和数据增强技术,充分挖掘未标记数据和有限标记数据中的信息和特征。然后在输出和隐藏空间两层提供正则化约束,引导轻量级目标网络仅使用少量标记数据实现高效的半监督学习。本文使用X=(xi,yi),i∈(.原创 2022-02-01 21:49:30 · 983 阅读 · 1 评论 -
META: Metadata-Empowered Weak Supervision for Text Classification,EMNLP2020
本文考虑在弱监督文本分类情境下使用元数据(metadata),利用元数据作为一个额外的薄弱监督的来源。具体来说,本文将文本数据和元数据组织到一个文本丰富的网络中,并采用motif来捕获元数据的适当组合,并在迭代过程中对motif实例以及种子词进行排序,选择重要的motfi作为种子motif。Introduction除了文本信息之外,元数据信息(例如,作者、出版年份)在各个领域(例如,新闻文章、社交媒体帖子和科学论文)都可以广泛获得,它可以作为一个强大的、互补的弱监督来源。元数据通常是多类型的,每种.原创 2022-02-01 17:50:37 · 923 阅读 · 0 评论 -
Denoising Multi-SourceWeak Supervision for Neural Text Classification,EMNLP2020
本文探究在没有标签情况下只使用易于提供的规则作为多个弱监督源的文本分类方法。使用诱导规则进行文本分类是具有挑战性的,因为,规则并不能覆盖一些长尾的样本,并且使用规则的学习往往是具有噪声的。为了解决这两个问题,本文设计了一种标签去噪器,利用条件软注意机制估计可靠性,然后通过聚合规则标注的弱标签来降低标签噪声。降噪后的伪标签监督神经分类器预测不匹配样本的软标签,解决了规则覆盖问题。Preliminaries假设存在多个弱监源,彼此提供互补的信息。下面提供了一个具体的例子:餐馆评价中涉及到的规则包含价格.原创 2022-01-31 15:55:59 · 842 阅读 · 0 评论 -
MixText: Linguistically-Informed Interpolation of Hidden Space for Semi-Supervised Text Classificati
ACL2020本文利用数据增强技术TMix对半监督文本分类任务中的为标记数据做增强,并猜测未标记数据的低熵标签,从而让为标记数据与标记数据一样具有可用性。通过混合标记、未标记和增强数据,MixText在几个文本分类基准上显著优于当前的预训练和微调模型以及其他最先进的半监督学习方法。目录IntroductionTMixText classificationSemi-supervised MixTextData AugmentationLabel GuessingTMix on Labeled and U.原创 2022-01-30 11:21:49 · 739 阅读 · 0 评论