LLM 的思考方式

原文:towardsdatascience.com/how-llms-think-d8754a79017d

你是否曾经想过 AI 模型是如何“思考”的?想象一下窥视机器的内心,观察齿轮的转动。这正是 Anthropic 的一项开创性论文所探讨的内容。标题为“扩展单义性:从 Claude 3 Sonnet 中提取可解释的特征”,这项研究深入探讨了理解和解释 AI 的思考过程。

研究人员成功地从 Claude 3 Sonnet 模型中提取了特征,展示了它对名人、城市甚至软件中的安全漏洞的思考。这就像一瞥 AI 的内心,揭示了它所理解并用于做出决策的概念。

研究论文概述

在这篇论文中,包括 Adly Templeton、Tom Conerly、Jonathan Marcus 等人的 Anthropic 团队着手使 AI 模型更加透明。他们专注于中等规模的 AI 模型 Claude 3 Sonnet,并旨在扩展单义性——本质上确保模型中的每个特征都有一个清晰、单一的含义。

但为什么扩展单义性如此重要?单义性究竟是什么?我们很快就会深入了解。

研究的重要性

理解和解释 AI 模型中的特征至关重要。这有助于我们了解这些模型是如何做出决定的,使它们更加可靠且易于改进。当我们能够解释这些特征时,调试、精炼和优化 AI 模型变得更加容易。

这项研究对 AI 安全也具有重大影响。通过识别与有害行为相关的特征,例如偏见、欺骗或危险内容,我们可以开发出减少这些风险的方法。这对于 AI 系统越来越多地融入日常生活,其中伦理考虑和安全至关重要尤为重要。

这项研究的一个关键贡献是向我们展示了如何理解大型语言模型(LLM)的“思考”方式。通过提取和解释特征,我们可以深入了解这些复杂模型的内部运作。这有助于我们了解为什么它们会做出某些决定,提供了一种窥视其“思维过程”的方法。

背景

让我们回顾一下之前提到的某些奇怪术语:

单义性单义性就像在巨大的建筑中为每个锁配备一个单一、特定的钥匙。想象这个建筑代表了 AI 模型;每个锁是模型理解的特征或概念。有了单义性,每个钥匙(特征)只能完美地匹配一个锁(概念)。这意味着每次使用特定的钥匙时,它总是打开同一个锁。这种一致性有助于我们了解模型在做出决策时究竟在思考什么,因为我们知道哪个钥匙打开了哪个锁。

稀疏自编码器稀疏自编码器就像一个高效率的侦探。想象一下你有一个大而杂乱的房间(数据),里面散布着许多物品。侦探的工作是找到少数关键物品(重要特征),这些物品可以讲述房间内发生的事情的全貌。“稀疏”部分意味着这个侦探试图用尽可能少的线索来解决谜题,只关注最重要的证据。在这项研究中,稀疏自编码器就像这个侦探,帮助从 AI 模型中识别和提取清晰、可理解的特征,使其更容易看到内部发生的事情。

这里有一些有用的Andrew Ng 关于自编码器的讲义,以了解更多相关信息。

前期工作

以前的研究通过探索如何使用稀疏自编码器从较小的 AI 模型中提取可解释的特征来奠定基础。这些研究表明,稀疏自编码器可以有效地在简单模型中识别有意义的特征。然而,人们对这种方法是否能够扩展到像 Claude 3 Sonnet 这样更大、更复杂的模型存在重大担忧。

早期研究主要集中在证明稀疏自编码器可以在较小模型中识别和表示关键特征。他们成功地表明,提取的特征既有意义又可解释。然而,主要限制是这些技术只在简单模型上进行了测试。扩展到更大模型,如 Claude 3 Sonnet,是必要的,因为这些模型处理更复杂的数据和任务,使得在提取的特征中保持相同水平的清晰度和有用性变得更加困难。

这项研究基于这些基础,旨在将这些方法扩展到更先进的 AI 系统中。研究人员应用并调整了稀疏自编码器以处理更大模型的高复杂性和维度。通过解决缩放挑战,这项研究旨在确保即使在更复杂的模型中,提取的特征仍然清晰且有用,从而推进我们对 AI 决策过程的理解和解释。

缩放稀疏自编码器

将稀疏自编码器扩展到与像 Claude 3 Sonnet 这样的大型模型一起工作,就像是从一个小型的本地图书馆升级到管理一个庞大的国家档案馆。适用于较小集合的技术需要调整以处理更大数据集的规模和复杂性。

稀疏自编码器旨在识别和表示数据中的关键特征,同时保持活动特征的数量低,就像一个图书馆员知道在成千上万本书中哪几本书能回答你的问题一样。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/04dd59053e09a9996455f9f69bdd8572.png

由 DALL-E 生成的图像

两个关键假设指导了这次缩放:

线性表示假设:想象一个巨大的夜空地图,其中每颗星星代表 AI 理解的一个概念。这个假设表明,每个概念(或星星)在模型的激活空间中沿着特定的方向对齐。本质上,就像说如果你在空间中画一条直接指向特定星星的线,你可以通过它的方向唯一地识别那颗星星。

叠加假设:基于夜空类比,这个假设就像说 AI 可以通过几乎垂直的线条来映射比方向更多的星星。这允许 AI 通过找到独特的方式来组合这些方向,从而高效地打包信息,就像通过仔细地在不同的层中映射它们来将更多的星星放入夜空中。

通过应用这些假设,研究人员能够有效地将稀疏自编码器扩展到与 Claude 3 Sonnet 等更大模型一起工作,使他们能够捕捉和表示数据中的简单和复杂特征。

训练模型

想象一下尝试训练一群侦探去筛选一个庞大的图书馆以找到关键证据。这与研究人员在处理 Claude 3 Sonnet 这个复杂人工智能模型时使用稀疏自编码器(SAEs)的工作类似。他们必须调整这些侦探的训练技巧以处理由 Claude 3 Sonnet 模型代表的更大、更复杂的数据集。

研究者们决定将自编码器(SAEs)应用于模型中间层的残差激活流。将中间层想象成一个侦探调查中的关键检查点,在这里可以找到许多有趣、抽象的线索。他们选择这个点是因为:

  • 更小的尺寸:残差流比其他层小,因此在计算资源方面成本更低。

  • 缓解跨层叠加:这指的是不同层的信号混合在一起的问题,就像味道混合在一起,使得很难区分它们。

  • 富含抽象特征:中间层很可能包含有趣的高级概念。

团队训练了三种不同容量的 SAEs 版本,以处理不同的特征:1M 个特征、4M 个特征和 34M 个特征。对于每个 SAE,目标是保持激活特征的数量低,同时保持准确性:

  • 激活特征:平均而言,任何时刻激活的特征少于 300 个,解释了模型激活中至少 65%的变异性。

  • 无效特征:这些是永远不会被激活的特征。他们在 1M SAE 中发现了大约 2%的无效特征,在 4M SAE 中发现了 35%,在 34M SAE 中发现了 65%。未来的改进目标是将这些数字降低。

规模定律:优化训练

目标是在重建准确性和激活特征数量之间取得平衡,使用一个结合均方误差(MSE)和 L1 惩罚的损失函数。

此外,他们还应用了缩放定律,这有助于确定在给定的计算预算内最佳的训练步骤和特征数量。本质上,缩放定律告诉我们,随着我们增加我们的计算资源,特征数量和训练步骤的数量应该按照可预测的模式增加,通常遵循幂律。

随着计算预算的增加,最佳特征数量和训练步骤的数量按幂律进行扩展。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/83be673db5d03caf911155af5b8a398f.png

损失函数图 - 特征和训练步骤 - 由 “Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet” 提取

他们发现最佳学习率也遵循幂律趋势,这有助于他们为更大的运行选择适当的学习率。

数学基础

稀疏自动编码器模型背后的核心数学原理对于理解它如何将激活分解为可解释的特征至关重要。

编码器 编码器通过一个学习到的线性变换后跟一个 ReLU 非线性变换将输入激活转换到更高维的空间。这表示为:

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/97b1a9ed620cb971800dcf711e63a73b.png

编码函数 - 作者图片

在这里,_W^_enc 和 _b^_enc 是编码器的权重和偏差,而 fi(x) 代表特征 i 的激活。

解码器 解码器试图使用另一个线性变换从特征中重建原始激活:

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/c73f07ac93743c449cc135006963027f.png

解码函数 - 作者图片

_W^_dec 和 _b^_dec 是解码器的权重和偏差。术语 fi(x)_W^_dec 代表特征 i 对重建的贡献。

损失 模型被训练以最小化重建误差和稀疏惩罚的组合:

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/f04ff85a8074137c6feddb2b6d0489a5.png

损失函数 - 作者图片

此损失函数确保重建的准确性(最小化误差的 L2 范数)同时保持活动特征的数量低(由系数λ的 L1 正则化项强制执行)。

可解释特征

研究揭示了 Claude 3 Sonnet 模型中广泛的可解释特征,包括抽象和具体概念。这些特征为模型内部过程和决策模式提供了见解。

抽象特征 这些包括模型理解并用于处理信息的高级概念。例如,情感、意图以及更广泛的类别,如科学或技术。

具体特征:这些特征更加具体和有形,例如著名人士的名字、地理位置或特定物体。这些特征可以直接与可识别的现实世界实体相联系。

例如,该模型具有在提及知名人士时被激活的特征。可能有一个专门针对“阿尔伯特·爱因斯坦”的特征,每当文本提到他或他的物理学工作时,该特征就会被激活。这个特征有助于模型建立联系并生成关于爱因斯坦的上下文相关信息。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/9172e4e26fdc0a5b88016b547f29070c.png

阿尔伯特·爱因斯坦特征 – 由 “Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet” 提取的图像

类似地,还有响应对城市、国家和其他地理实体的引用的特征。例如,当文本谈论埃菲尔铁塔、法国文化或城市发生的事件时,针对“巴黎”的特征可能会被激活。这有助于模型理解和语境化这些地方的讨论。

模型还可以识别和激活与代码或系统中的安全漏洞相关的特征。例如,可能有一个识别“缓冲区溢出”或“SQL 注入”等常见软件开发安全问题的特征。这种能力对于涉及网络安全的应用程序至关重要,因为它允许模型检测并突出潜在风险。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/9cdbdbad0a76d8038844ceb4a7baab86.png

安全措施 – 由 “Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet” 提取的图像

还识别了与偏见相关的特征,包括检测种族、性别或其他形式偏见的特征。通过理解这些特征,开发者可以努力减轻偏输出,确保 AI 的行为更加公平和公正。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/2ef10376652d856f7cdead60d5c52c68.png

性别偏见 – 由 “Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet” 提取的图像

这些可解释的特征展示了模型捕捉和利用具体和广泛概念的能力。通过理解这些特征,研究人员可以更好地掌握 Claude 3 Sonnet 处理信息的方式,使模型的行为更加透明和可预测。这种理解对于提高人工智能的可靠性、安全性和与人类价值观的一致性至关重要。

结论

这项研究在理解和解释 Claude 3 Sonnet 模型内部运作方面取得了重大进展。

研究成功从 Claude 3 Sonnet 中提取了抽象和具体特征,使人工智能的决策过程更加透明。例如,包括名人、城市和安全漏洞的特征。

研究确定了与人工智能安全相关的特征,例如检测安全漏洞、偏见和欺骗行为。理解这些特征对于开发更安全、更可靠的人工智能系统至关重要。

可解释人工智能特征的重要性不容忽视。它们增强了我们调试、精炼和优化人工智能模型的能力,从而提高了性能和可靠性。此外,它们对于确保人工智能系统透明运行并符合人类价值观至关重要,尤其是在安全和伦理领域。

参考文献

  1. Anthropic. Adly Templeton 等. “扩展单义性:从 Claude 3 Sonnet 中提取可解释特征.” Anthropic 研究, 2024。

  2. Ng, Andrew.自编码器:概述和应用.” 讲义, 斯坦福大学。

  3. Anthropic.人工智能安全核心观点.” Anthropic 安全指南, 2024。

内容概要:本文介绍了ENVI Deep Learning V1.0的操作教程,重点讲解了如何利用ENVI软件进行深度学习模型的训练与应用,以实现遥感图像中特定目标(如集装箱)的自动提取。教程涵盖了从数据准备、标签图像创建、模型初始化与训练,到执行分类及结果优化的完整流程,并介绍了精度评价与通过ENVI Modeler实现一键化建模的方法。系统基于TensorFlow框架,采用ENVINet5(U-Net变体)架构,支持通过点、线、面ROI或分类图生成标签数据,适用于多/高光谱影像的单一类别特征提取。; 适合人群:具备遥感图像处理基础,熟悉ENVI软件操作,从事地理信息、测绘、环境监测等相关领域的技术人员或研究人员,尤其是希望将深度学习技术应用于遥感目标识别的初学者与实践者。; 使用场景及目标:①在遥感影像中自动识别和提取特定地物目标(如车辆、建筑、道路、集装箱等);②掌握ENVI环境下深度学习模型的训练流程与关键参数设置(如Patch Size、Epochs、Class Weight等);③通过模型调优与结果反馈提升分类精度,实现高效自动化信息提取。; 阅读建议:建议结合实际遥感项目边学边练,重点关注标签数据制作、模型参数配置与结果后处理环节,充分利用ENVI Modeler进行自动化建模与参数优化,同时注意软硬件环境(特别是NVIDIA GPU)的配置要求以保障训练效率。
### 将大型语言模型(LLM)与强化学习(RL)结合的具体方式和方法 #### 1. 理解LLM与RL的结合基础 大型语言模型(LLM)在自然语言处理领域中展现出强大的能力,而强化学习(RL)则是一种通过优化累积奖励来指导智能体与环境交互的学习范式[^4]。两者的结合能够赋予LLM在开放世界中执行复杂任务的能力,同时为RL智能体提供语义理解和通用推理能力。 #### 2. 结合方式 - **在线强化学习(Online RL)** 在线RL涉及实时与环境交互,LLM可以作为策略网络的一部分,生成动作或决策,并通过环境反馈调整其参数。例如,LLM可以通过生成文本动作与用户或其他系统交互,根据用户的反应调整输出[^1]。 - **离线强化学习(Offline RL)** 离线RL利用预先收集的数据集进行训练,避免了与真实环境的直接交互。LLM可以通过分析这些数据集中包含的语言模式和行为序列,学习到更优的策略[^1]。例如,OpenManus-RL项目通过离线数据集调优LLM,提升其推理和决策能力[^3]。 #### 3. 方法实现 - **策略优化** 使用强化学习中的策略梯度方法优化LLM的输出。例如,DAPO算法通过采样一组输出并优化策略,解决长链思维场景下的训练难题。具体技术包括Clip-Higher、Dynamic Sampling、Token-Level Policy Loss和Overlong Reward Shaping等[^5]。 - **奖励函数设计** 奖励函数是RL的核心组成部分,直接影响学习效果。对于LLM,奖励函数可以基于生成文本的质量、相关性或特定任务的表现进行设计。例如,在数学推理任务中,奖励可以反映答案的正确性和简洁性[^5]。 - **环境建模** LLM与RL结合时,需要将任务抽象为一个马尔可夫决策过程(MDP)。LLM的输入可以被视为状态,输出为动作,而环境反馈则转化为奖励信号。例如,在对话系统中,用户的回复可以作为奖励信号用于更新LLM[^4]。 #### 4. 使用场景 - **对话系统** LLM可以通过RL学习生成更符合用户需求的回复,提高对话系统的交互质量[^4]。 - **代码生成** LLM可以结合RL优化代码生成任务,根据编译器反馈或测试结果调整生成的代码[^1]。 - **游戏AI** LLM可以与RL结合,生成复杂的策略或决策,应用于棋类游戏或实时策略游戏[^4]。 ```python # 示例:使用PPO算法优化LLM生成文本 import torch from transformers import GPT2LMHeadModel, GPT2Tokenizer # 加载预训练模型和分词器 model = GPT2LMHeadModel.from_pretrained("gpt2") tokenizer = GPT2Tokenizer.from_pretrained("gpt2") # 定义奖励函数 def reward_function(output_text): # 根据特定标准计算奖励值 return len(output_text.split()) / 10 # 示例:奖励与句子长度成正比 # 生成文本并优化 input_text = "Once upon a time" input_ids = tokenizer.encode(input_text, return_tensors="pt") output = model.generate(input_ids, max_length=50, num_return_sequences=5) # 计算奖励并更新模型参数 rewards = [reward_function(tokenizer.decode(seq)) for seq in output] # 使用PPO或其他RL算法更新模型参数 ``` #### 5. 挑战与解决方案 - **稀疏奖励问题** 长序列决策任务中,奖励信号可能非常稀疏。解决方案包括使用中间奖励、塑造奖励函数或引入辅助任务[^4]。 - **探索与利用的平衡** 在RL中,如何平衡探索新策略与利用已有策略是一个关键问题。Clip-Higher技术通过解耦上下剪裁范围,防止熵崩溃,从而实现更好的平衡[^5]。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值