Rethinking the Role of Demonstrations: What Makes In-Context Learning Work?

本文聚焦大语言模型的上下文学习,通过实验揭示正确的输入 - 标签示例对并非必需,随机替换标签几乎不影响效果。研究确定了标签空间、输入文本分布、整体序列格式等是影响任务效果的核心因素,还探讨了元训练的作用及模型在测试时的学习情况。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

摘要

大语言模型能够通过上下文学习-只需要在推理阶段加入一些输入-标签的示例对,就能完成对新输入文本的预测。但是,对模型是如何学习,示例的哪些方面会影响最终的任务效果,我们知之甚少。在这篇纹章中,我们揭示了 正确的输入-标签示例对不是必须的,随机替换示例中的标签几乎不会影响效果,这个结论在12个不同的模型上是一致的,包括gpt3。相反,我们发现示例的其他方面是最终任务效果的核心驱动,包括:标签的空间,输入文本的分布,整体序列的格式。总之,我们的分析提供了一个新的方式去理解上下文学习是怎么工作的以及背后的机理,同时抛砖引玉:在推理阶段,大语言模型有多少能力可以被激发。

1. 引言

大型语言模型(LMs)通过简单地对几个输入标签对(演示)进行条件反射,在下游任务中表现出了令人印象深刻的性能;这种类型的推理被称为上下文学习(Brown et al., 2020)。尽管上下文学习在广泛的任务上始终优于 zeroshot 推理(Zhao et al., 2021; Liu et al., 2021),但对它的工作原理和演示的哪些方面如何有助于最终任务性能知之甚少。

在本文中,我们表明,事实上,有效的语境学习并不需要基础事实演示(第4节)。具体而言,用随机标签替换演示中的标签几乎不会影响分类和多项选择任务的性能(图1)。结果在 12 个不同的模型上是一致的,包括 GPT-3 家族。这强烈表明,与直觉相反,该模型不依赖于演示中的输入标签映射来执行任务。

实验结果
上图为实验结果,在分类任务和多选任务上,分别使用三个不同大小的lms,评估了GPT-3的六个数据集, 并且使用了通道方法。完整结果见第4节。当演示中的标签被随机标签取代时,上下文学习性能只会略有下降

进一步的分析调查了演示的哪些部分确实对性能有贡献。我们确定了演示的可能方面(例如,标签空间和输入文本的分布),并评估了演示的一系列变体,以量化每个变体的影响(第5节)。我们发现:(1)标签空间和演示所指定的输入文本的分布都是上下文学习的关键(无论标签对个人输入是否正确);(2) 指定整体格式也是至关重要的,例如,当标签空间未知时,使用随机英语单词作为标签比不使用标签要好得多;(3) 具有上下文学习目标的元训练(Min et al.,2021b)放大了这些效果——模型几乎完全利用了演示的更简单方面,如格式,而不是输入标签映射。

总之,我们的分析为理解样例在上下文学习中的作用提供了一种新的方法。我们的经验表明,(1)与直觉相反,模型并不像我们想象的那样依赖于演示样例中提供的基本事实与输入标签映射(第4节),(2)尽管如此,仍然受益于了解演示指定的标签空间和输入分布(第5节)。我们还讨论了更广泛的含义,例如,我们可以对测试时的模型学习说些什么,以及未来工作的途径(第6节)。

2. 相关工作

大型语言模型在广泛的下游任务中对强大的性能至关重要(Devlin 等人,2019;Radford 等人,2019;Liu 等人,2019;Raffel 等人,2020;Lewis 等人,2020)。虽然微调是一种流行的转移到新任务的方法(Devlin等人,2019年),但微调非常大的模型(例如≥10B参数)通常是不切实际的。Brown等人(2020)提出了上下文学习作为学习新任务的替代方法。如图 2 所示,LM 仅通过推理来学习新任务,方法是将训练数据的串联作为演示,而无需任何梯度更新。

在这里插入图片描述

自引入以来,上下文学习一直是大量研究的焦点。先前的工作提出了更好地制定问题的方法(Zhao et al., 2021; Holtzman et al., 2021; Min et al., 2021a),更好的方法为演示选择标记示例(Liu et al., 2021; Lu et al., 2021; Rubin et al., 2021),使用显式上下文学习目标进行元训练(Chen et al., 2021; Min et al., 2021b),并学习遵循指令作为上下文学习的变体(Mishra et al., 2021b; Efrat and Levy, 2020; Wei et al., 2022a; Sanh et al., 2022)。同时,一

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值