本文是LLM系列文章,针对《In-context Vectors: Making In Context Learning More Effective and Controllable Through Latent Space Steering》的翻译。
摘要
大型语言模型(LLM)展示了涌现上下文学习能力,它们可以根据示例演示适应新任务。然而,在许多环境中,上下文学习的有效性有限,难以定量控制,并且占用了上下文窗口空间。为了克服这些限制,我们提出了一种替代方法,将上下文学习重新定义为上下文向量(ICV)。使用ICV有两个步骤。我们首先使用前向传递演示示例,从LLM的潜在嵌入创建上下文中的向量。此矢量捕获有关预期任务的基本信息。在一个新的查询中,我们没有在提示中添加演示,而是使用ICV转移LLM的潜在状态。ICV方法有几个好处:1)它使LLM能够更有效地遵循演示示例;2) 通过调节ICV的大小很容易控制;3) 它通过删除上下文中的演示来缩短提示的长度;4) ICV在计算上比微调效率高得多。我们证明,与标准相比,ICV在上下文学习和微调各种任务(包括安全、风格转换、角色扮演和格式化)方面取得了更好的性能。此外,我们还表明,通过在相应的ICV上进行简单的矢量算法