Adversarial Training Based Multi-Source Unsupervised Domain Adaptation for Sentiment Analysis

最新推荐文章于 2024-08-26 16:00:00 发布

原创最新推荐文章于 2024-08-26 16:00:00 发布 · 461 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #人工智能

machine learning 同时被 2 个专栏收录

42 篇文章

订阅专栏

domain adaption（域适应）

10 篇文章

订阅专栏

本文提出两种迁移学习框架解决SA的MS-UDA问题，WS-UDA利用加权伪标签，2ST-UDA进行两阶段训练。通过对抗性学习分离共享与私有特征，实验结果优于竞争者。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

用于情感分析 (SA) 的多源无监督域适应 (MS-UDA) 旨在利用多个源域中的有用信息来帮助在没有监督信息的未标记目标域中进行 SA。 MS-UDA 的现有算法要么仅利用共享特征，即域不变信息，要么基于 NLP 中的一些弱假设，例如平滑假设。为了避免这些问题，我们提出了两种基于多源域适应方法的迁移学习框架，通过结合源假设来推导出良好的目标假设。第一个框架的关键特征是一种新颖的基于加权方案的无监督域自适应框架多源无监督域自适应 (MS-UDA) 用于情感分析 (SA) 旨在利用多个源域中的有用信息来帮助在未标记的目标中进行 SA没有监督信息的领域。 MS-UDA 的现有算法要么仅利用共享特征，即域不变信息，要么基于 NLP 中的一些弱假设，例如平滑假设。为了避免这些问题，我们提出了两种基于多源域适应方法的迁移学习框架，通过结合源假设来推导出良好的目标假设。第一个框架的关键特征是一种新颖的基于加权方案的无监督域适应框架（WS-UDA），它结合了源分类器来直接获取目标实例的伪标签。而第二个框架是基于两阶段训练的无监督域适应框架（2ST-UDA），它进一步利用这些伪标签来训练目标私有提取器。重要的是，分配给每个源分类器的权重基于目标实例和源域之间的关系，这是由判别器通过对抗性训练测量的。此外，通过相同的鉴别器，我们还实现了共享特征和私有特征的分离。在两个 SA 数据集上的实验结果证明了我们框架的有前途的性能，其性能优于无监督的最先进的竞争对手。 ework (WS-UDA )，结合源分类器直接获取目标实例的伪标签。而第二个框架是基于两阶段训练的无监督域适应框架 (2ST-UDA)，它进一步利用这些伪标签来训练目标私有提取器。重要的是，分配给每个源分类器的权重基于目标实例和源域之间的关系，这是由判别器通过对抗性训练测量的。此外，通过相同的鉴别器，我们还实现了共享特征和私有特征的分离。在两个 SA 数据集上的实验结果证明了我们框架的有希望的性能，优于无监督的最先进的竞争对手。
在本文中，我们专注于 SA 的 MS-UDA，并希望结合多个标记源域的假设来为未标记的目标域推导出一个好的假设。为此，我们引入了两个迁移学习框架。第一个框架是基于加权方案的无监督域适应（WS-UDA），其中我们集成源分类器以直接注释目标实例的伪标签。我们的第二个框架是基于两阶段训练的无监督域适应方法 (2ST-UDA)，它进一步利用伪标签来训练特定于目标的提取器。我们框架的主要特点包括：首先，我们通过将鉴别器视为概率分布估计器来在我们的模型之前引入数据依赖。具体来说，我们利用鉴别器来衡量不同源域和目标实例之间的实例到域的关系，在此基础上我们实现实例级加权方案，为每个源分类器分配不同的权重；其次，我们的框架明确地对域表示的私有和共享组件进行建模，并鼓励它们分离或独立，这可以抵抗与底层共享分布相关的噪声污染（Salzmann et al. 2010）并对系统有益性能（Bousmalis 等人，2016 年）。详细地说，我们的框架强制共享特征是域不变的，并且私有特征通过对抗性训练来包含特定于域的信息，而不是 Bousmalis 等人采用的正交性约束；刘、邱和黄（2016 年；2017 年）。
在这里插入图片描述

Figure 1: WS-UDA: The shared-wight extractor Es captures shared features zs for all domains. Each domain-specific extractor Epj K j=1 captures private features zpj K j=1 for each source domain. The classifier D strives to discriminate which domain the instances coming from and force zs domain-invariant and zpj K j=1 domain-informative. The C estimates sentiment polarities {cˆj} K j=1 from the views of different source domains as a traditional classifier. ˆ d is normalized to tell what confidence we can give to each {cˆj} K j=1. Finally, the sentiment polarities of target domain are assembled by the weighted sum of {cˆj} K j=1. tion. We first present the problem definition and notations, followed by an overview of each framework. Then we detail the frameworks with all components successively