Not All Language Model Features Are Linear

最新推荐文章于 2025-11-24 18:29:32 发布

UnknownBody

最新推荐文章于 2025-11-24 18:29:32 发布

阅读量79

点赞数

CC 4.0 BY-SA版权

分类专栏： LLM Daily 文章标签：语言模型人工智能算法

本文链接：https://blog.youkuaiyun.com/c_cpp_csharp/article/details/139258894

LLM Daily 专栏收录该内容

1689 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

本文挑战了线性表示假说，研究发现GPT-2和Mistral 7B等大型语言模型中存在不可约的多维特征，如循环表示，这些特征在特定任务中扮演关键角色。通过稀疏自动编码器，揭示了模型表示的复杂性和多维性质，为进一步理解语言模型的底层算法迈出重要一步。

本文是LLM系列文章，针对《Not All Language Model Features Are Linear》的翻译。

摘要

最近的工作提出了线性表示假说：语言模型通过操纵激活空间中概念（“特征”）的一维表示来进行计算。相反，我们探讨了一些语言模型表示是否可能是内在的多维的。我们首先对不可约多维特征进行严格定义，基于它们是否可以分解为独立的或不同时出现的低维特征。受这些定义的启发，我们设计了一种可扩展的方法，该方法使用稀疏自动编码器来自动查找GPT-2和Mistral 7B中的多维特征。这些自动发现的特征包括引人注目的可解释的例子，例如代表一周中的几天和一年中的几个月的循环特征。我们确定了一些任务，在这些任务中，这些精确的循环用于解决涉及一周中几天和一年中几个月的模运算的计算问题。最后，我们通过对Mistral 7B和Llama 3 8B的干预实验提供了证据，证明这些循环特征确实是这些任务中的基本计算单元，并且我们通过将这些任务的隐藏状态分解为可解释的组件来找到进一步的循环表示。