PADA: Example-based Prompt Learning for on-the-fly Adaptation to Unseen Domains

PADA是一种解决域泛化问题的算法,通过生成包含域相关特征(DRFs)的prompt,使模型能在未见过的目标域上进行有效预测。它使用T5语言模型,当处理新样本时,生成与样本相关的prompt,将样本映射到共享语义空间进行下游任务处理。例如,在情感分类中,PADA能将新领域的评论转换为已知源域的语境进行分析。

Abstract

本文主要是为了解决域泛化DG问题,即在几个源域上进行训练,然后使其可以应用到未见过得目标域(未知域 Unseen Domain)。

因此作者提出了PADA,一种基于示例的自回归prompt learning算法,用于基于 T5 语言模型的即时任意域自适应(An example-based autoregressive Prompt learning algorithm for on-the-fly Any-Domain Adaptation, based on the T5 language model)。

给定一个测试样本,PADA 首先生成一个唯一的prompt,然后基于这个prompt,使用 NLP 预测任务对前述样本进行打标

PADA 的训标:生成由不限长度的token序列组成的prompt。这个prompt中包含域相关特征DRFs (Domain Related Features) 。直观上来看,生成的prompt是给定样本的唯一签名,并将其映射到了由 source domains组成的语义空间

代码: https://github.com/eyalbd2/PADA

Introduction

直观地说,DG通过整合来自多个源域的知识,可以更好地泛化到不可见域(未知域)。

PADA提出一种新的学习机制:学习生成代表多个源域的可读prompt

即:给定一个来自未知域的新样本时,该模型会生成属于熟悉(源)域并且与给定样本相关的属性(一系列tokens),这些属性就当作该样本的prompt从而用于下游任务。

整个工作分成两个阶段:

  1. 生成给定样本的prompt word;

  1. 根据prompt word 来完成下游任务。

为了生成有效的prompt,作者定义了一个域相关特征集合DRFs (sets of Domain Related Features) 。DRF是与源域密切相关的prompt,对特定域的语义进行编码。

作者利用各种源域的DRF来贯穿(span)多个源域们的共享语义空间,这些 DRF 共同反映了源域之间的相似点和不同点,以及特定领域的知识。

举个栗子:

使用PADA 进行文本情感分类:该模型熟悉四个源域:restaurants, home-furniture,electronic-devices and movies。当评论来自于airlines领域时,它使用 DRF 通过prompt机制将样本(该评论)投射到共享语义空间中,然后在分类中使用基于 DRF 的prompt。

总的来说,PADA 首先生成域名(蓝色餐厅 绿色家居),之后生成一组与输入示例相关的 DRF。然后它使用prompt来预测任务标签。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值