AdaPrompt:进一步将下游任务融入到预训练模型

最新推荐文章于 2025-04-09 14:30:30 发布

CReep~

最新推荐文章于 2025-04-09 14:30:30 发布

阅读量1.1k

点赞数 1

分类专栏： nlp 机器学习算法 Prompt 文章标签：自然语言处理

本文链接：https://blog.youkuaiyun.com/justorderman/article/details/123170248

版权

机器学习算法同时被 3 个专栏收录

14 篇文章

订阅专栏

nlp

10 篇文章

订阅专栏

Prompt

3 篇文章

订阅专栏

本文探讨了预训练模型如何更好地利用Prompt提示。作者指出传统Prompt方法可能限制模型泛化性，因预训练数据与下游任务数据分布不一致。为解决此问题，提出了将场景信息和提示融入预训练模型，通过检索相似数据来统一预训练和下游任务的数据。同时，文章还介绍了扩展Verbalizer以增加模型预测结果的多样性，避免固定映射到特定类别。实验结果显示这些改进有效提升了模型性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

hi，各位伙伴们早上好，好久没有更文了，最近也没有发觉特别有意思的论文，今天给大家带来一篇和Prompt相关的论文，欢迎食用~

论文地址：https://export.arxiv.org/pdf/2202.04824.pdf

一、提出动机

1）本文作者认为Prompt的提示信息不能被预训练模型充分挖掘使用

2）下游任务的数据不能很好地应用于微调阶段，讲的通俗一点就是模型不能很好的学习下游任务的数据

二、核心idea

作者认为Prompt-based(传统prompt方法)比较依赖预训练模型的泛化性，因为预训练模型的数据（BOOKCORPUS plus WIKIPEDIA corpus）和下游任务的数据分布不一致存在gap；然后作者还认为模型预测mask位置的词都是事先固定好的，构建一个能够完全覆盖候选词的说话者需要专家知识，而一个设计拙劣的说话者限制了预测的准确性，这里简单说下自己的看法，如果mask要预测得词都是事先固定好的（就是去计算设定好词的概率）这样就像是在做选择题，而不是和MLM类似的完型填空任务，这样会限制模型的泛化性。

于是本文作者提出以下改进：

2.1 将场景信息以及提示信息融入到预训练模型

具体的做法是使用未标注的测试集加入Prompt提示（ $P r o m p t (x)$ )

然后使用预训练模型去预测mask位置的token得到 $t o p - ∣ O ∣$ 个预测结果，然后将预测 $t o p - ∣ O ∣$ 得结果填补到原来的模板中被mask位置得到新的数据 $q_i$ ，可以看下原文中给的一个例子：

得到新的数据 $q_i$ 后再使用ES(使用的TF-IDF算法衡量句子间的相似性)为样本 $q_i$ 去语料库（这里的语料库指的是预训练使用的数据BookCorpus 等）检索top-k相似的query，将这些检索后的query数据集作者称为 $D_p$ ，通过这样的操作作者认为预训练的数据和下游数据统一，而且数据集 $D_p$ 不仅融入的特定任务信息而且还融入了Prompt提示的信息，其实我觉得这里就是做了一个映射，将特定场景的数据加入Prompt提示后，映射到预训练的数据集中。然后将新的数据集 $D_p$ 加入到预训练模型做MLM任务，得到新的预训练模型 $M_{D_p}$ 。

得到新的模型 $M_{D_p}$ 之后作者认为这是一个融入特定任务的一个模型，然后再重复上诉步骤得到 $M^{'}_{D_p}$ ，然后再使用 $M^{'}_{D_p}$ 作为最终的基准模型，我猜想得到这个基准模型之后在进行常规的Prompt-tuning（原文好像没有交待之后的事，也有可能是我看漏了，欢迎补充~）。

2.2 扩展Verbalizer（就是要映射到label的单词）

常规的Prompt做法是将模型预测得结果直接映射到task classes中，例如： “good”for positive and “bad” for negative. 上文中也提到过这种做法会损失模型的一定泛化性因为我们强制的让模型倾向于预测几个固定的结果中，所以本文提出了一种扩展模型预测结果范围的方法。

将测试数据送入PLM中预测得到一系列 $t o p - ∣ O ∣$ 的结果作为候选Verbalizer $C$ ，且 $c\in C$ ，使用训练好的NLI系统去推断 $s 1, s 2$ 是否为蕴含关系，如果是蕴含关系则将 $c$ 加入到Verbalizer集里面。