Not All Language Model Features Are Linear

本文挑战了线性表示假说,研究发现GPT-2和Mistral 7B等大型语言模型中存在不可约的多维特征,如循环表示,这些特征在特定任务中扮演关键角色。通过稀疏自动编码器,揭示了模型表示的复杂性和多维性质,为进一步理解语言模型的底层算法迈出重要一步。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文是LLM系列文章,针对《Not All Language Model Features Are Linear》的翻译。

摘要

最近的工作提出了线性表示假说:语言模型通过操纵激活空间中概念(“特征”)的一维表示来进行计算。相反,我们探讨了一些语言模型表示是否可能是内在的多维的。我们首先对不可约多维特征进行严格定义,基于它们是否可以分解为独立的或不同时出现的低维特征。受这些定义的启发,我们设计了一种可扩展的方法,该方法使用稀疏自动编码器来自动查找GPT-2和Mistral 7B中的多维特征。这些自动发现的特征包括引人注目的可解释的例子,例如代表一周中的几天和一年中的几个月的循环特征。我们确定了一些任务,在这些任务中,这些精确的循环用于解决涉及一周中几天和一年中几个月的模运算的计算问题。最后,我们通过对Mistral 7B和Llama 3 8B的干预实验提供了证据,证明这些循环特征确实是这些任务中的基本计算单元,并且我们通过将这些任务的隐藏状态分解为可解释的组件来找到进一步的循环表示。

1 引言

2 相关工作

3 定义和理论

4 稀疏自动编码器查找多维特征

5 大型语言模型中的循环表示

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值