关于《Domain Adaptation with Adversarial Training and Graph Embeddings》的理解

本文提出一种结合对抗学习与图像嵌入的域适应模型,应用于社交媒体危机信息的筛选与分析,旨在提高信息的有效性和时效性。

使用对抗学习和图像嵌入的域适应学习

本文将基于对抗学习和图像嵌入的域适应运用于危机状态下的舆情分析,主要处理的前提是:源域有labeled的数据和unlabeled的数据,而目标域unlabeled。模型则包含基于域适应的对抗学习基于图像的半监督学习。数据来源是 two real-world crisis datasets collected from Twitter。

作者做这个模型的立意是为了能有效判断危机状态下社交网络上的信息是否与危机有关,进而讲这些筛选出来的信息加以利用来 例及时营救或者减少损失。(吐槽一下,真正危机状态下还能发社交网络的人是真的“临危不惧”)。

模型的整体思想是:domain adaptation部分来处理 域之间的distribution drift问题,semi-supervised learning来学习两个域中的数据。模型亮点在于:将domain adaptation,semi-supervised learning两部分融合到一个统一的深度学习网络中。该网络中包含基本的CNN网络和domain adaptation部分以及semi-supervised learning部分。semi-supervised learning来学习内部的代表特征通过预测图中的上下文节点(该图则将labeled和unlabeled训练数据之间的相似性编码)。domain adaptation 通过训练特征提取器来实现。整体来讲:学习高度抽象的代表特征来处理主要的分类任务,但是这些特征在域之间保持不变。

得出三条结论:

1半监督+监督  优于   监督

2域适应+对抗   优于  域适应

3神经网络+ 对抗+ 半监督  效果赛高

目前代码还没给出,数据看了看倒是有。


神经网络模型图丢出来:


可以看到整个的神经网络很清楚,通过shared层的处理过程,之后再分为三个不同的训练,最终反向传播,整个流程很清晰。模型训练的过程中使用SGD。

之后就是分别计算三个部分的损失,需要注意的是Semi-supervised Component部分中用到了graph embedding算法,这有个介绍graph embedding的网站,点我传送(网上关于介绍graph embedding的不多,我只找到这个,有同学找到更好的请评论留言)。


下面是作者给出的算法流程的伪代码:

最终的结果:

1.


可以看到 graph-based semi-supervised的方法明显要由于其他两种方法;

2.


L代表supervised       L+U表示semi-supervised

可以看到semi-supervised的效果较与supervised有很大的提升,但是我们可以看到提升主要是在100-1000 batch size范围内,超出1000的batch后提升就不大了。所以作者说“The results obtained using batch sizes 500 and 1,000 are reasonably in the acceptable range when labeled and unlabeled instances are combined”当然500-1000也是训练的合适数量,原话“ which is also a reasonable number of training examples to obtain at the onset of an event.”

3.


作者提出的domain adaptation with adversarial training along with graph-based semi-supervised learning的效果当然世界无敌,宇宙最高了。


总结:

1半监督学习是个好东西,遇到labeled、unlabeled的数据可以试一下

2 graph embedding是个好东西,得好好学习

3 对抗的域适应也是棒棒的,要多用

Domain adaptation with auxiliary task是一种在领域适应中使用辅助任务的方法。领域适应是指将在一个领域上训练的模型应用到另一个领域的问题上。通常情况下,模型在不同领域之间的性能会下降,这是因为两个领域之间的数据分布差异。 辅助任务是指在领域适应过程中引入一个与目标任务相关但在源领域上已有标注的任务。这个辅助任务可以帮助模型学习到源领域和目标领域之间的共享特征和知识。通过将源领域和目标领域的数据同时输入到模型中进行训练,模型可以学习到源领域和目标领域之间的联系。 使用辅助任务的方法有两种:joint training和pretraining。在joint training中,源领域的数据和目标领域的数据通过一个共享的网络结构进行训练,源领域的任务和目标领域的任务可以同时进行。在pretraining中,首先使用源领域的数据训练一个模型,然后将这个已经训练好的模型作为初始模型,再使用目标领域的数据进行微调。 辅助任务的引入可以带来多个优势。首先,通过在源领域上引入额外的训练数据,可以提高模型在源领域上的性能。其次,通过学习到源领域和目标领域之间的共享特征,模型可以更好地适应目标领域的数据,从而提高在目标领域上的泛化能力。最后,辅助任务可以帮助模型避免因迁移而导致的信息丢失和过拟合问题。 综上所述,domain adaptation with auxiliary task是一种通过引入辅助任务来加强领域适应的方法。通过辅助任务的学习,模型可以从源领域和目标领域的数据中获得更多的共享知识和特征,从而提高在目标领域上的性能。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值