＜论文＞（斯坦福）大语言模型的改进表征引导策略

斯坦福提出大语言模型RePS引导策略

最新推荐文章于 2025-12-09 16:47:37 发布

原创最新推荐文章于 2025-12-09 16:47:37 发布 · 649 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#语言模型 #人工智能 #自然语言处理 #深度学习 #算法 #指令微调

文献简录专栏收录该内容

34 篇文章

订阅专栏

一、摘要

本文介绍斯坦福大学发表于2025年5月的论文《Improved Representation Steering for Language Models》。

摘要：

语言模型（LM）的引导方法旨在通过以各种方式改变模型输入、权重或表示来调整行为，从而对模型生成进行细粒度且可解释的控制。最近的研究表明，例如在想要引入或抑制某个特定概念时，调整权重或表示往往不如通过提示进行引导有效。我们展示了如何通过我们新的无参考偏好引导（RePS）来改进表示引导，这是一个双向偏好优化目标，可同时进行概念引导和抑制。我们训练了RePS的三种参数化形式，并在大规模模型引导基准测试AxBench上对它们进行评估。在规模从20亿到270亿不等的Gemma模型上，RePS优于所有现有的以语言建模目标训练的引导方法，并大幅缩小了与提示法之间的差距，同时提升了可解释性并减少了参数数量。在抑制方面，RePS在Gemma - 2模型上与语言建模目标表现相当，在更大的Gemma - 3变体上表现更优，并且对于能够破解提示法的基于提示的越狱攻击具有抗性。总体而言，我们的结果表明，RePS为引导和抑制提供了一种可解释且稳健的替代提示法的方法。

二、核心创新点

随着大模型的激增，其可靠性和可控性给业界带来了挑战。本文作者提出了无参考偏好引导策略（Reference-free Preference Steering，RePS），用于训练基于干预的引导方法。当正向应用干预措施时，RePS会提高引导行为的奖励，而当反向应用干预措施时，则会优化相反的行为。本文所指的引导任务，是给定一个输入指令x给经过指令微调的大模型以及一个引导概念c（例如给出一个基于规则的概念引导：“在你的回复中包含一个电话号码”），目标是生成一个经过引导的回复，该回复既要遵循指令，又要通过融入引导概念来对回复进行编辑。