LLM 的思考方式

原创于 2025-12-21 00:37:18 发布 · 387 阅读

6 ·

CC 4.0 BY-SA版权

License CC BY-NC-SA 4.0 / 自豪地采用谷歌翻译

文章标签：

#榛樿鍒嗙被

榛樿鍒嗙被专栏收录该内容

1088 篇文章

订阅专栏

原文：towardsdatascience.com/how-llms-think-d8754a79017d

你是否曾经想过 AI 模型是如何“思考”的？想象一下窥视机器的内心，观察齿轮的转动。这正是 Anthropic 的一项开创性论文所探讨的内容。标题为“扩展单义性：从 Claude 3 Sonnet 中提取可解释的特征”，这项研究深入探讨了理解和解释 AI 的思考过程。

研究人员成功地从 Claude 3 Sonnet 模型中提取了特征，展示了它对名人、城市甚至软件中的安全漏洞的思考。这就像一瞥 AI 的内心，揭示了它所理解并用于做出决策的概念。

研究论文概述

在这篇论文中，包括 Adly Templeton、Tom Conerly、Jonathan Marcus 等人的 Anthropic 团队着手使 AI 模型更加透明。他们专注于中等规模的 AI 模型 Claude 3 Sonnet，并旨在扩展单义性——本质上确保模型中的每个特征都有一个清晰、单一的含义。

但为什么扩展单义性如此重要？单义性究竟是什么？我们很快就会深入了解。

研究的重要性

理解和解释 AI 模型中的特征至关重要。这有助于我们了解这些模型是如何做出决定的，使它们更加可靠且易于改进。当我们能够解释这些特征时，调试、精炼和优化 AI 模型变得更加容易。

这项研究对 AI 安全也具有重大影响。通过识别与有害行为相关的特征，例如偏见、欺骗或危险内容，我们可以开发出减少这些风险的方法。这对于 AI 系统越来越多地融入日常生活，其中伦理考虑和安全至关重要尤为重要。

这项研究的一个关键贡献是向我们展示了如何理解大型语言模型（LLM）的“思考”方式。通过提取和解释特征，我们可以深入了解这些复杂模型的内部运作。这有助于我们了解为什么它们会做出某些决定，提供了一种窥视其“思维过程”的方法。

背景

让我们回顾一下之前提到的某些奇怪术语：

单义性单义性就像在巨大的建筑中为每个锁配备一个单一、特定的钥匙。想象这个建筑代表了 AI 模型；每个锁是模型理解的特征或概念。有了单义性，每个钥匙（特征）只能完美地匹配一个锁（概念）。这意味着每次使用特定的钥匙时，它总是打开同一个锁。这种一致性有助于我们了解模型在做出决策时究竟在思考什么，因为我们知道哪个钥匙打开了哪个锁。

稀疏自编码器稀疏自编码器就像一个高效率的侦探。想象一下你有一个大而杂乱的房间（数据），里面散布着许多物品。侦探的工作是找到少数关键物品（重要特征），这些物品可以讲述房间内发生的事情的全貌。“稀疏”部分意味着这个侦探试图用尽可能少的线索来解决谜题，只关注最重要的证据。在这项研究中，稀疏自编码器就像这个侦探，帮助从 AI 模型中识别和提取清晰、可理解的特征，使其更容易看到内部发生的事情。

这里有一些有用的Andrew Ng 关于自编码器的讲义，以了解更多相关信息。

前期工作

以前的研究通过探索如何使用稀疏自编码器从较小的 AI 模型中提取可解释的特征来奠定基础。这些研究表明，稀疏自编码器可以有效地在简单模型中识别有意义的特征。然而，人们对这种方法是否能够扩展到像 Claude 3 Sonnet 这样更大、更复杂的模型存在重大担忧。

早期研究主要集中在证明稀疏自编码器可以在较小模型中识别和表示关键特征。他们成功地表明，提取的特征既有意义又可解释。然而，主要限制是这些技术只在简单模型上进行了测试。扩展到更大模型，如 Claude 3 Sonnet，是必要的，因为这些模型处理更复杂的数据和任务，使得在提取的特征中保持相同水平的清晰度和有用性变得更加困难。

这项研究基于这些基础，旨在将这些方法扩展到更先进的 AI 系统中。研究人员应用并调整了稀疏自编码器以处理更大模型的高复杂性和维度。通过解决缩放挑战，这项研究旨在确保即使在更复杂的模型中，提取的特征仍然清晰且有用，从而推进我们对 AI 决策过程的理解和解释。

缩放稀疏自编码器

将稀疏自编码器扩展到与像 Claude 3 Sonnet 这样的大型模型一起工作，就像是从一个小型的本地图书馆升级到管理一个庞大的国家档案馆。适用于较小集合的技术需要调整以处理更大数据集的规模和复杂性。

稀疏自编码器旨在识别和表示数据中的关键特征，同时保持活动特征的数量低，就像一个图书馆员知道在成千上万本书中哪几本书能回答你的问题一样。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/04dd59053e09a9996455f9f69bdd8572.png

由 DALL-E 生成的图像

两个关键假设指导了这次缩放：

线性表示假设：想象一个巨大的夜空地图，其中每颗星星代表 AI 理解的一个概念。这个假设表明，每个概念（或星星）在模型的激活空间中沿着特定的方向对齐。本质上，就像说如果你在空间中画一条直接指向特定星星的线，你可以通过它的方向唯一地识别那颗星星。

叠加假设：基于夜空类比，这个假设就像说 AI 可以通过几乎垂直的线条来映射比方向更多的星星。这允许 AI 通过找到独特的方式来组合这些方向，从而高效地打包信息，就像通过仔细地在不同的层中映射它们来将更多的星星放入夜空中。

通过应用这些假设，研究人员能够有效地将稀疏自编码器扩展到与 Claude 3 Sonnet 等更大模型一起工作，使他们能够捕捉和表示数据中的简单和复杂特征。

训练模型

想象一下尝试训练一群侦探去筛选一个庞大的图书馆以找到关键证据。这与研究人员在处理 Claude 3 Sonnet 这个复杂人工智能模型时使用稀疏自编码器（SAEs）的工作类似。他们必须调整这些侦探的训练技巧以处理由 Claude 3 Sonnet 模型代表的更大、更复杂的数据集。

研究者们决定将自编码器（SAEs）应用于模型中间层的残差激活流。将中间层想象成一个侦探调查中的关键检查点，在这里可以找到许多有趣、抽象的线索。他们选择这个点是因为：

更小的尺寸：残差流比其他层小，因此在计算资源方面成本更低。
缓解跨层叠加：这指的是不同层的信号混合在一起的问题，就像味道混合在一起，使得很难区分它们。
富含抽象特征：中间层很可能包含有趣的高级概念。

团队训练了三种不同容量的 SAEs 版本，以处理不同的特征：1M 个特征、4M 个特征和 34M 个特征。对于每个 SAE，目标是保持激活特征的数量低，同时保持准确性：

激活特征：平均而言，任何时刻激活的特征少于 300 个，解释了模型激活中至少 65%的变异性。
无效特征：这些是永远不会被激活的特征。他们在 1M SAE 中发现了大约 2%的无效特征，在 4M SAE 中发现了 35%，在 34M SAE 中发现了 65%。未来的改进目标是将这些数字降低。