本文是LLM系列文章,针对《Not All Language Model Features Are Linear》的翻译。
并非所有语言模型特征都是线性的
摘要
最近的工作提出了线性表示假说:语言模型通过操纵激活空间中概念(“特征”)的一维表示来进行计算。相反,我们探讨了一些语言模型表示是否可能是内在的多维的。我们首先对不可约多维特征进行严格定义,基于它们是否可以分解为独立的或不同时出现的低维特征。受这些定义的启发,我们设计了一种可扩展的方法,该方法使用稀疏自动编码器来自动查找GPT-2和Mistral 7B中的多维特征。这些自动发现的特征包括引人注目的可解释的例子,例如代表一周中的几天和一年中的几个月的循环特征。我们确定了一些任务,在这些任务中,这些精确的循环用于解决涉及一周中几天和一年中几个月的模运算的计算问题。最后,我们通过对Mistral 7B和Llama 3 8B的干预实验提供了证据,证明这些循环特征确实是这些任务中的基本计算单元,并且我们通过将这些任务的隐藏状态分解为可解释的组件来找到进一步的循环表示。