你是否曾经想过 AI 模型是如何“思考”的?想象一下窥视机器的内心,观察齿轮的转动。这正是 Anthropic 的一项开创性论文所探讨的内容。标题为“扩展单义性:从 Claude 3 Sonnet 中提取可解释的特征”,这项研究深入探讨了理解和解释 AI 的思考过程。
研究人员成功地从 Claude 3 Sonnet 模型中提取了特征,展示了它对名人、城市甚至软件中的安全漏洞的思考。这就像一瞥 AI 的内心,揭示了它所理解并用于做出决策的概念。
研究论文概述
在这篇论文中,包括 Adly Templeton、Tom Conerly、Jonathan Marcus 等人的 Anthropic 团队着手使 AI 模型更加透明。他们专注于中等规模的 AI 模型 Claude 3 Sonnet,并旨在扩展单义性——本质上确保模型中的每个特征都有一个清晰、单一的含义。
但为什么扩展单义性如此重要?单义性究竟是什么?我们很快就会深入了解。
研究的重要性
理解和解释 AI 模型中的特征至关重要。这有助于我们了解这些模型是如何做出决定的,使它们更加可靠且易于改进。当我们能够解释这些特征时,调试、精炼和优化 AI 模型变得更加容易。
这项研究对 AI 安全也具有重大影响。通过识别与有害行为相关的特征,例如偏见、欺骗或危险内容,我们可以开发出减少这些风险的方法。这对于 AI 系统越来越多地融入日常生活,其中伦理考虑和安全至关重要尤为重要。
这项研究的一个关键贡献是向我们展示了如何理解大型语言模型(LLM)的“思考”方式。通过提取和解释特征,我们可以深入了解这些复杂模型的内部运作。这有助于我们了解为什么它们会做出某些决定,提供了一种窥视其“思维过程”的方法。
背景
让我们回顾一下之前提到的某些奇怪术语:
单义性单义性就像在巨大的建筑中为每个锁配备一个单一、特定的钥匙。想象这个建筑代表了 AI 模型;每个锁是模型理解的特征或概念。有了单义性,每个钥匙(特征)只能完美地匹配一个锁(概念)。这意味着每次使用特定的钥匙时,它总是打开同一个锁。这种一致性有助于我们了解模型在做出决策时究竟在思考什么,因为我们知道哪个钥匙打开了哪个锁。
稀疏自编码器稀疏自编码器就像一个高效率的侦探。想象一下你有一个大而杂乱的房间(数据),里面散布着许多物品。侦探的工作是找到少数关键物品(重要特征),这些物品可以讲述房间内发生的事情的全貌。“稀疏”部分意味着这个侦探试图用尽可能少的线索来解决谜题,只关注最重要的证据。在这项研究中,稀疏自编码器就像这个侦探,帮助从 AI 模型中识别和提取清晰、可理解的特征,使其更容易看到内部发生的事情。
这里有一些有用的Andrew Ng 关于自编码器的讲义,以了解更多相关信息。
前期工作
以前的研究通过探索如何使用稀疏自编码器从较小的 AI 模型中提取可解释的特征来奠定基础。这些研究表明,稀疏自编码器可以有效地在简单模型中识别有意义的特征。然而,人们对这种方法是否能够扩展到像 Claude 3 Sonnet 这样更大、更复杂的模型存在重大担忧。
早期研究主要集中在证明稀疏自编码器可以在较小模型中识别和表示关键特征。他们成功地表明,提取的特征既有意义又可解释。然而,主要限制是这些技术只在简单模型上进行了测试。扩展到更大模型,如 Claude 3 Sonnet,是必要的,因为这些模型处理更复杂的数据和任务,使得在提取的特征中保持相同水平的清晰度和有用性变得更加困难。
这项研究基于这些基础,旨在将这些方法扩展到更先进的 AI 系统中。研究人员应用并调整了稀疏自编码器以处理更大模型的高复杂性和维度。通过解决缩放挑战,这项研究旨在确保即使在更复杂的模型中,提取的特征仍然清晰且有用,从而推进我们对 AI 决策过程的理解和解释。
缩放稀疏自编码器
将稀疏自编码器扩展到与像 Claude 3 Sonnet 这样的大型模型一起工作,就像是从一个小型的本地图书馆升级到管理一个庞大的国家档案馆。适用于较小集合的技术需要调整以处理更大数据集的规模和复杂性。
稀疏自编码器旨在识别和表示数据中的关键特征,同时保持活动特征的数量低,就像一个图书馆员知道在成千上万本书中哪几本书能回答你的问题一样。
由 DALL-E 生成的图像
两个关键假设指导了这次缩放:
线性表示假设:想象一个巨大的夜空地图,其中每颗星星代表 AI 理解的一个概念。这个假设表明,每个概念(或星星)在模型的激活空间中沿着特定的方向对齐。本质上,就像说如果你在空间中画一条直接指向特定星星的线,你可以通过它的方向唯一地识别那颗星星。
叠加假设:基于夜空类比,这个假设就像说 AI 可以通过几乎垂直的线条来映射比方向更多的星星。这允许 AI 通过找到独特的方式来组合这些方向,从而高效地打包信息,就像通过仔细地在不同的层中映射它们来将更多的星星放入夜空中。
通过应用这些假设,研究人员能够有效地将稀疏自编码器扩展到与 Claude 3 Sonnet 等更大模型一起工作,使他们能够捕捉和表示数据中的简单和复杂特征。
训练模型
想象一下尝试训练一群侦探去筛选一个庞大的图书馆以找到关键证据。这与研究人员在处理 Claude 3 Sonnet 这个复杂人工智能模型时使用稀疏自编码器(SAEs)的工作类似。他们必须调整这些侦探的训练技巧以处理由 Claude 3 Sonnet 模型代表的更大、更复杂的数据集。
研究者们决定将自编码器(SAEs)应用于模型中间层的残差激活流。将中间层想象成一个侦探调查中的关键检查点,在这里可以找到许多有趣、抽象的线索。他们选择这个点是因为:
-
更小的尺寸:残差流比其他层小,因此在计算资源方面成本更低。
-
缓解跨层叠加:这指的是不同层的信号混合在一起的问题,就像味道混合在一起,使得很难区分它们。
-
富含抽象特征:中间层很可能包含有趣的高级概念。
团队训练了三种不同容量的 SAEs 版本,以处理不同的特征:1M 个特征、4M 个特征和 34M 个特征。对于每个 SAE,目标是保持激活特征的数量低,同时保持准确性:
-
激活特征:平均而言,任何时刻激活的特征少于 300 个,解释了模型激活中至少 65%的变异性。
-
无效特征:这些是永远不会被激活的特征。他们在 1M SAE 中发现了大约 2%的无效特征,在 4M SAE 中发现了 35%,在 34M SAE 中发现了 65%。未来的改进目标是将这些数字降低。
规模定律:优化训练
目标是在重建准确性和激活特征数量之间取得平衡,使用一个结合均方误差(MSE)和 L1 惩罚的损失函数。
此外,他们还应用了缩放定律,这有助于确定在给定的计算预算内最佳的训练步骤和特征数量。本质上,缩放定律告诉我们,随着我们增加我们的计算资源,特征数量和训练步骤的数量应该按照可预测的模式增加,通常遵循幂律。
随着计算预算的增加,最佳特征数量和训练步骤的数量按幂律进行扩展。
损失函数图 - 特征和训练步骤 - 由 “Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet” 提取
他们发现最佳学习率也遵循幂律趋势,这有助于他们为更大的运行选择适当的学习率。
数学基础
稀疏自动编码器模型背后的核心数学原理对于理解它如何将激活分解为可解释的特征至关重要。
编码器 编码器通过一个学习到的线性变换后跟一个 ReLU 非线性变换将输入激活转换到更高维的空间。这表示为:
编码函数 - 作者图片
在这里,_W^_enc 和 _b^_enc 是编码器的权重和偏差,而 fi(x) 代表特征 i 的激活。
解码器 解码器试图使用另一个线性变换从特征中重建原始激活:
解码函数 - 作者图片
_W^_dec 和 _b^_dec 是解码器的权重和偏差。术语 fi(x)_W^_dec 代表特征 i 对重建的贡献。
损失 模型被训练以最小化重建误差和稀疏惩罚的组合:
损失函数 - 作者图片
此损失函数确保重建的准确性(最小化误差的 L2 范数)同时保持活动特征的数量低(由系数λ的 L1 正则化项强制执行)。
可解释特征
研究揭示了 Claude 3 Sonnet 模型中广泛的可解释特征,包括抽象和具体概念。这些特征为模型内部过程和决策模式提供了见解。
抽象特征 这些包括模型理解并用于处理信息的高级概念。例如,情感、意图以及更广泛的类别,如科学或技术。
具体特征:这些特征更加具体和有形,例如著名人士的名字、地理位置或特定物体。这些特征可以直接与可识别的现实世界实体相联系。
例如,该模型具有在提及知名人士时被激活的特征。可能有一个专门针对“阿尔伯特·爱因斯坦”的特征,每当文本提到他或他的物理学工作时,该特征就会被激活。这个特征有助于模型建立联系并生成关于爱因斯坦的上下文相关信息。
阿尔伯特·爱因斯坦特征 – 由 “Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet” 提取的图像
类似地,还有响应对城市、国家和其他地理实体的引用的特征。例如,当文本谈论埃菲尔铁塔、法国文化或城市发生的事件时,针对“巴黎”的特征可能会被激活。这有助于模型理解和语境化这些地方的讨论。
模型还可以识别和激活与代码或系统中的安全漏洞相关的特征。例如,可能有一个识别“缓冲区溢出”或“SQL 注入”等常见软件开发安全问题的特征。这种能力对于涉及网络安全的应用程序至关重要,因为它允许模型检测并突出潜在风险。
安全措施 – 由 “Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet” 提取的图像
还识别了与偏见相关的特征,包括检测种族、性别或其他形式偏见的特征。通过理解这些特征,开发者可以努力减轻偏输出,确保 AI 的行为更加公平和公正。
性别偏见 – 由 “Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet” 提取的图像
这些可解释的特征展示了模型捕捉和利用具体和广泛概念的能力。通过理解这些特征,研究人员可以更好地掌握 Claude 3 Sonnet 处理信息的方式,使模型的行为更加透明和可预测。这种理解对于提高人工智能的可靠性、安全性和与人类价值观的一致性至关重要。
结论
这项研究在理解和解释 Claude 3 Sonnet 模型内部运作方面取得了重大进展。
研究成功从 Claude 3 Sonnet 中提取了抽象和具体特征,使人工智能的决策过程更加透明。例如,包括名人、城市和安全漏洞的特征。
研究确定了与人工智能安全相关的特征,例如检测安全漏洞、偏见和欺骗行为。理解这些特征对于开发更安全、更可靠的人工智能系统至关重要。
可解释人工智能特征的重要性不容忽视。它们增强了我们调试、精炼和优化人工智能模型的能力,从而提高了性能和可靠性。此外,它们对于确保人工智能系统透明运行并符合人类价值观至关重要,尤其是在安全和伦理领域。
参考文献
-
Anthropic. Adly Templeton 等. “扩展单义性:从 Claude 3 Sonnet 中提取可解释特征.” Anthropic 研究, 2024。
-
Ng, Andrew. “自编码器:概述和应用.” 讲义, 斯坦福大学。
-
Anthropic. “人工智能安全核心观点.” Anthropic 安全指南, 2024。
223

被折叠的 条评论
为什么被折叠?



