Semi-Supervised Sequence Modeling with Cross-View Training

本文提出一种名为CVT的半监督学习方法,旨在利用少量标注数据与大量未标注数据提高模型性能。CVT通过self-training与multi-view策略,增强模型表示能力,特别适用于多任务学习场景,实验证明其在多种NLP任务上表现优异。

 

题目与摘要

本文针对什么任务?任务简要介绍下。

针对序列任务,包括分类,序列标注。

本文发现了什么问题?该文大体是怎么解决的?解决得如何?

目前监督学习从小规模的标注数据中学习,但是目前无监督学习表示出了很大的优势,所以本文提出了一种新的方法利用标注数据以及未标注数据,CVT。full model 学习 labeled data。使用辅助模型只学习数据的一部分来匹配full model的预测。很有效,尤其对于多任务学习。

解释下题目。题目起得如何?能概括内容并吸引人吗?

简单明了,概括了目标。。

介绍

这个任务以往是如何解决的?作者沿着哪条路径继续研究的?为什么?

监督学习,对语料要求较高

无监督学习,预训练不能使用标注数据,

半监督学习

作者使用半监督学习。CVT属于self-training。因为半监督学习既可以利用标注数据以及未标注数据。

目前工作存在什么问题?为什么?你觉得可能还存在什么其他问题?为什么?

self-training以往将测试集中预测的数据置信度高的数据添加进训练集。

对于标注数据正常训练,对于未标注数据,模型既作为teacher还作为student。模型在未标注的数据测试结果作为label,并对数据加噪音,作为student。图像加噪音是可行的,文本输入不是很可行。

但是之后数据是基于此模型训练的数据。如果测试集本身的结果就不高,利用测试集数据会不会扰乱。

该文准备如何解决这个问题?为什么可以这样解决?你觉得该文解决这个问题的方法如何?为什么?你觉得可以如何/或更好的解决这个问题?为什么?

使用self-training 以及multi-view 。

使用full model训练标注数据,full model对未标注的数据进行预测,辅助模型输入不同的未标注数据的部分来预测 full model的预测结果。

1、避免了测试集的数据进入到训练集,防止出现,过拟合???

2、通过辅助模型对不完全的未标注数据预测,来挖掘更深层次的信息。

 

列出该文贡献(该文自己觉得的)

CVT可以更好的学习表示

CVT改进了以前任务的结果,轻松有效地与多任务学习相结合:只需添加额外的预测模块。共享Bi-LSTM编码器之上的不同任务。 训练统一模型以共同执行除机器翻译之外的所有任务可以改善结果(优于多任务ELMo模型)同时减少总训练时间。

模型

整体介绍(主要是图)

半监督方法

对于训练集的数据输入到模型中,预测结果与标签进行比较,对于测试集,根据任务对一条测试集数据进行拆分(对任务有帮助的形式),作为输入去预测 测试集完整数据预测的结果。Loss计算是训练机的loss+测试集的loss

监督部分的loss

CVT的Loss

使用的KL散度作为计算

与multi-task结合

在bilstm编码器上添加其他的预测模块,监督学习期间随机选取一个任务,针对该任务标记数据小批量更新Lsup 监督学习损失。在学习未标注数据时,所有任务联合优化Lcvt.模型交替进行有关标记和未标记的训练

不比单个任务慢,如果联合训练6个任务,需要3倍一项模型的时间,节省了2倍时间。

模型创新点

对于测试集数据这样拆分,可以加强模型的表示学习,因为对测试集的拆分出不同的数据,更好的挖掘深层信息。相比之前使用两个模型,本模型只是增加几个预测的模块,对比之前添加整个模型是很节省的。

(仅对要进一步跟进的paper)详细介绍模型,从输入到输出,输入矩阵维度,公式等

 

 

实验

数据集及评价标准介绍

Combinatory Categorial Grammar (CCG) Supertagging 组合范畴文法:CCGBank

Text Chunking文本语块识别:CoNLL-2000 data

NER:CoNLL-2003 data

Fine-Grained NER (FGN)细粒度分词:OntoNotes (Hovy et al., 2006) dataset.

词性标注:Wall Street Journal portion of the Penn Treebank

依存分析:Penn Treebank onverted to Stanford Dependencies version 3.3.0.

机器翻译:use the English-Vietnamese translation dataset from IWSLT 2015 (Cettolo et al., 2015). We report (tokenized) BLEU scores on the tst2013 test set.

use the 1 Billion Word Language Model Benchmark (Chelba et al., 2014) as a pool of unlabeled sentences for semi-supervised learning.

结果分析

result

VAT对抗学习,向student模型加噪音

因为测试集是在所有任务上进行测试,所以可以减轻多任务学习的遗忘问题

多任务学习类似CVT+self-training

多任务学习确实有提升,

多任务的CVT会高于multi-task ELMO

小的multi-task与大的multitask做对比,模型大还是有优势的

 

CVT25%数据就可以超于监督100%数据,说明小数据量,半监督很有优势

 

你觉得这篇paper创新与贡献是(不一定如作者所说)?为什么?

通过CVT不同视角看数据会对模型有提升,将数据分解的更加详细,以便模型学习到更好的结果。此文也是对数据的进一步扩充

有没有进一步深入的价值?为什么?

有,数据集少的时候可以采用

列出该文弱点(或者是你觉得应该是什么问题,他解决的不好,你会如何解决?)

我觉得此类需要依靠这类问题的难易程度,如果本身问题很难(50%),在测试常常有预测错误的时候,只用一半测试集数据与完整数据是否具有可比性,

如果一半的数据拆分比较合理,导致效果优于整体呢,

既然有效,为什么不将训练集也做同样的拆分处理和正确标签比较?

感觉对不同任务个性化拆分数据,有点像去猜遮掩部分并进行预测。

该文对你的启发是?

可以从数据的不同角度出发看数据,让模型学会更细的看数据。

列出其中有价值的需要进一步阅读的参考文献

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值