题目
AUTOPROMPT:使用自动生成的提示从语言模型中引出知识
论文地址:https://aclanthology.org/2020.emnlp-main.346/
代码仓库:http://ucinlp.github.io/autoprompt
摘要
预训练语言模型的显著成功促使人们研究这些模型在预训练过程中学习了哪些知识。将任务重新表述为填空题(例如,完形填空测试)是衡量这些知识的一种自然方法,然而,它的使用受到编写适当提示所需的人工努力和猜测的限制。为了解决这个问题,我们开发了AUTOPROMPT,这是一种基于梯度引导搜索的自动化方法,可以为各种任务创建提示。使用AUTOPROMPT,我们表明掩码语言模型(mlm)具有在没有额外参数或微调的情况下执行情感分析和自然语言推理的固有能力,有时可以达到与最近最先进的监督模型相当的性能。我们还表明,我们的提示比在LAMA基准上手动创建的提示从MLM中获得更准确的事实知识,并且MLM可以比监督关系提取模型更有效地用作关系提取器。这些结果表明,自动生成的提示是现有探测方法的一种可行的无参数替代方法,并且随着预训练语言模型变得更加复杂和有能力,可能会取代调优。
引言
预训练语言模型(LMs)在通过微调适应下游任务时取得了非凡的成功(Peters等人,2018;Devlin et al, 2019)。虽然很明显,预训练提高了准确性,但很难确定微调后的语言模型包含的知识是在预训练期间学习的还是在微调期间学习的。我们如何直接评估预训练语言模型中的知识,无论是语言的、事实的、常识的还是特定任务的?
已经提出了许多技术来通过分析预训练的语言模型的内部表示来获得这些知识。一种常见的策略是使用探测分类器——使用预训练语言模型的表示作为特征来预测某些属性的浅分类器(Conneau等人,2018;Liu et al ., 2019)。然而,探测分类器需要额外的学习参数,因此容易出现误报;高探测精度并不是得出LM包含某条知识的充分条件(Hewitt and Liang, 2019;Voita和Titov, 2020)。注意力可视化是另一种常见的技术,也有类似的失败模式:注意力得分可能与潜在的目标知识相关,但不是由潜在的目标知识引起的,这导致了对将其用作解释的批评(Jain和Wallace, 2019;Wiegreffe and Pinter, 2019)。探测可视化和注意力可视化都难以评估那些不能用简单的标记级或序列级分类任务表示的知识。
从这些模型中获取知识的更直接的方法是提示,因为它们毕竟是语言模型,即将任务转换为语言模型格式。例如,Radford等人(2019)通过在文章末尾附加“TL;DR:”,然后从LM生成,将摘要作为语言建模任务。同样,Petroni等人(2019)手动将知识库完成任务重新制定为完形测试(即填空问题)。与现有的模型分析方法相比,提示是非侵入性的:它不引入大量的附加参数,也不需要直接检查模型的表示。因此,提示为模型“知道”的内容提供了一个下限,因此是一个更有用的分析工具。然而,不幸的是,提示需要手动制作上下文以提供给模型。对于许多任务(例如文本蕴含)来说,这不仅耗时且不直观,更重要的是,模型对这种上下文高度敏感:不正确构建的上下文会人为地降低性能(Jiang等人,2020)。克服手动指定提示的需要将使提示成为更广泛有用的分析工具。
图1:AUTOPROMPT用于探测掩码语言模型(MLM)执行情感分析的能力。每个输入xinp都被放入一个自然语言提示符xprompt中,该提示符包含一个[MASK]令牌。该提示符是使用模板λ创建的,该模板将原始输入与一组触发令牌xtrig组合在一起。触发器令牌在所有输入中共享,并使用基于梯度的搜索确定(第2.2节)。然后,通过将自动检测到的标签令牌集合上的MLM预测p([MASK]jxprompt)边缘化来获得每个类标签y的概率(第2.3节)。
在本文中,我们将介绍autoprompt——一种为任何任务生成提示的自动化方法,如图1所示。给定一个任务,例如情感分析,AUTOPROMPT通过将原始任务输入(例如评论)与根据模板的触发令牌集合相结合来创建提示。所有输入都使用同一组触发令牌,并使用Wallace等人(2019)提出的基于梯度的搜索策略的变体来学习。对提示符的LM预测通过对一组相关的标签令牌进行边缘化转换为类概率,这些标签令牌可以提前学习或指定,从而使LM能够像评估任何其他分类器一样进行评估。
我们在大量的实验中验证了AUTOPROMPT的有效性。首先,我们使用AUTOPROMPT构建提示,以测试预训练的掩码语言模型(mlm)的情感分析和自然语言推理(NLI)。我们的测试表明,在没有任何微调的情况下,MLM在这两项任务上都表现良好——正确提示的RoBERTa在SST-2上达到91%的准确率(优于经过微调的ELMo模型(Peters等人,2018)),在sicke数据集的平衡变体上达到69%的准确率(Marelli等人,2014)。接下来,我们将AUTOPROMPT应用于LAMA的事实检索任务(Petroni等人,2019),其中我们能够构建比使用手动和分解方法生成的现有提示更有效地引出MLM事实知识的提示。具体来说,我们实现了43.3%的精确率(在每次预测中,预测为正的样本中实际为正的比例)。而目前最好的单提示结果为34.1% (Jiang et al, 2020)。我们还介绍了该任务的一个变体,类似于关系提取(RE),用于测试MLMs是否可以从给定的文本中提取知识。我们表明,当提供具有真实事实的上下文句子时,MLM实际上可以优于现有的RE模型,然而,当上下文句子被人为伪造时,它们会遇到困难。
最后,尽管AUTOPROMPT的目标是分析模型,但我们发现它比调优提供了某些实际优势。首先,AUTOPROMPT在平均和最坏情况下的精度都比在低数据状态下的微调要高。此外,与调优不同,提示LMs不需要大量磁盘空间来存储模型检查点;一旦找到提示,它就可以在现成的预训练lm上使用。这在为多个任务提供模型时是有益的。
AUTOPROMPT概述
从预训练的LMs中获取知识的一种