文章目录
0. 前言
目前的文本分类任务很多是需要基于大量标签数据进行分类模型训练,特别是在类别数目很大的情况下,人工进行数据打标就显得费时费力。
《 Text Classification Using Label Names Only: A Language Model Self-Training Approach》(code)论文中给出了一种不需要标签数据,仅仅需要标签名称就能进行文本分类的方法LOTClass。
1. LOTClass分类方法整体流程
该弱监督文本分类的大致流程如下:
- Category Understanding via Label Name:将标签名称与语义相关的词进行关联;
- Masked Category Prediction:找到类别指示词并训练能够预测其隐含类别的模型;
- Self-Training:通过self-training进行泛化;
而在这个过程中,有一个预训练模型贯穿始终。论文中使用的预训练模型是bert。
2. LOTClass分类方法
2.1 Category Understanding via Label Name
在这一步中,主要将标签名称关联到一些语义相关的词。
当人看到一个标签的时候,我们能够基于人已有的知识,从这个标签联想到与之意思相近的其他词汇。而论文中的第一步,就是基于一个预训练模型,去学习每一个类别的标签名称相关联的词汇。
我们直观上会觉得,如果一次词出现的位置,可以被另一个词替换,那么这两个词的意思应该是相近或者同一类别的。而刚好,bert的mlm训练方式就是将语料中的句子mask掉某一个词,来预测这个词。因此,论文中就是按照mlm训练时的输入方式,通过标签名称词出现的上下文,来预测标签名称词所在的位置在词表中的概率分布,从而也就表示了词表中的词在标签名称所在位置可能出现的概率。
p ( w ∣ h ) = s o f t m a x ( W 1 σ ( W 2 h + b ) ) p(w|h)=softmax(W_{1} \sigma(W_2h+b)) p(w∣h)=softmax(W1σ(W2h+b))
这个过程非常简单,跟mlm训练时基本一样。如上面这个公式中, h h h就是预训练bert模型输出的标签名称词对应的隐向量,后面接的全连接和softmax层,对应的 W 1 , W 2 W_1, W_2 W1,W2和 b b b参数也都是在MLM训练中已经训练好了的。

上面表格中,就是通过这个方式得到的分别在两个句子的sports位置的,经过预训练语言模型得到的可以放在对应位置的词。论文中根据经验,对每个句子上的标签词位置的预测结果选取top50个词作为可以采纳的替换词。但是我们从上面这两个句子可以看到,在语料中,同样一个词的含义不同,出现的上下文所要表达的意思也不同,对于同一个

最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



