【论文解读】在上下文中学习创建任务向量

原创

于 2023-11-23 14:25:27 发布 · 1.1k 阅读

22 ·

CC 4.0 BY-SA版权

文章标签：

#语言模型 #上下文学习 #人工智能 #论文

论文揭示了大型语言模型中的上下文学习（ICL）机制，指出ICL通过将训练集压缩为单一任务向量来驱动Transformer生成输出。通过实验证明，ICL学习的函数结构简单，且任务向量承载着关键的语义信息。

一、简要介绍

大型语言模型（LLMs）中的上下文学习（ICL）已经成为一种强大的新的学习范式。然而，其潜在的机制仍未被很好地了解。特别是，将其映射到“标准”机器学习框架是具有挑战性的，在该框架中，人们使用训练集S在某些假设类中找到最佳拟合函数f (x)。在这里，论文通过展示ICL学习到的函数通常有一个非常简单的结构：它们对应于transformerLLM，它的唯一输入是查询x和从训练集计算出的单个“任务向量”。因此，ICL可以看作是将S压缩为一个单个的任务向量θ(S)，然后使用这个任务向量来调制transformer以产生输出。论文通过对一系列模型和任务的全面实验来支持上述主张。

二、研究背景

大型语言模型在过去的几年中有了显著的改进。这些模型的一个显著特性是，它们可以从很少的演示中学习新的规则。例如，一个模型可以提示输入“苹果→红色，石灰→绿色，玉米→”，并产生输出“黄色”。因此，该模型仅学习了一个基于两个例子的映射，它可以正确地应用于新的例子。这种能力，被称为上下文学习（ICL），已被广泛使用，产生了令人印象深刻的实证结果。

目前还不清楚ICL是否以这种方式运行，因为预测是通过T（[S，x]）执行的，其中T通常是一个自回归transformer，而[S，x]是S和x中的令牌的连接。因此，在一般情况下，它可以是一个任意的函数，通过这个函数来产生输出。这可以包括“非参数”方法，如最近邻方法。最近的工作已经开始探索这个问题。例如，研究表明，当从头训练transformer在上下文中执行线性回归时，新兴的学习算法类似于随机梯度下降。然而，对于执行更复杂的自然语言任务的LLM，论文根本不清楚假设空间可能是什么。