别再只提Transformer了！谷歌HOPE架构开启LLM新纪元，让大模型“过目不忘”！-优快云博客

近年来，尽管大语言模型（LLMs ）在规模和性能上取得显著进展，其本质仍是静态系统——一旦预训练结束，参数即固定不变，无法持续学习或积累新知识。目前，LLMs 唯一具备的适应性能力是上下文学习，使其能在不更新参数的情况下通过提示完成零样本或少样本任务。然而，这种能力受限于有限的上下文窗口，且无法将新经验转化为长期记忆。为突破这一瓶颈，现有研究尝试了微调、外挂记忆模块等方法，但往往面临计算开销大、泛化能力弱或灾难性遗忘等问题，暴露出当前“堆叠Transformer层”范式的根本局限。

针对这一挑战，**谷歌提出一种全新的学习范式——嵌套学习（Nested Learning, NL）。NL 将模型结构理解为一系列优化问题的组合：这些问题可能以嵌套、多层级或并行的方式组织，且每个子问题均具备独立的“上下文流”。**基于 NL，贡献三大核心成果：深度优化器（Deep Optimizers）、自修正Titans（Self-Modifying Titans）和持续体记忆系统（Continuum Memory System，CMS）。进一步，将自修正Titans与持续体记忆系统结合，研究者构建了名为 HOPE 的学习模块。实验表明，HOPE 在语言建模、持续学习和长上下文推理等任务中展现出显著优势，为实现真正具备持续学习能力的下一代大模型提供了可行路径。该成果已收录至NeurIPS 2025。

论文题目：

Nested Learning: The Illusion of Deep Learning Architecture
论文链接：

https://abehrouz.github.io/files/NL.pdf

01 方法

图1 传统深度学习与嵌套学习

嵌套学习范式将机器学习模型及其训练过程表示为一组嵌套的优化问题。如图1左图所示，以一种混合架构为例：从传统深度学习的视角来看，无法揭示各模块内部计算的深度层次；而 NL 则能透明地展现所有内部的梯度流动，如图1右图所示，神经学习模块是一种能够自主学习如何压缩自身上下文流（context flow）的计算模型。以该模块的层级结构为例，其最外层对应模型的整体训练循环，通常指预训练阶段。

（1）嵌套学习

1）关联记忆

包括优化器和神经网络在内的系统，本质上都是关联记忆系统（associative memory systems），它们通过压缩自身的上下文流（context flow）来工作。给定一组键

**定义1：关联记忆是一个映射算子 M:K→V，它将键集合 K 映射到值集合 V。**为了从数据中学习这种映射，需定义一个目标函数来衡量映射的质量，从而可将 M 形式化为：

研究者证明从最简单的 MLP 到复杂架构，深度学习的训练过程均可解构为多层级关联记忆的嵌套优化，而“学习”本质上就是对上下文流的分层压缩与映射。

2）嵌套优化

在上一节表明一个机器学习模型可以分解为一组嵌套的或多层级的优化问题。接下来，首先对嵌套学习问题给出形式化表述，并进而定义神经学习模块（Neural Learning Module）。

尽管可以将模型分解为一系列优化过程，但尚不清楚是否能够在这组优化问题之上定义一个明确的顺序，从而以该形式唯一地表示整个模型。研究者提出：依据每个优化问题的更新速率来对各组件进行多层级排序，将对单个数据点执行一次更新步（update step）设为时间的基本单位，并据此定义每个组件的更新频率如下：

定义2：对于任意组件 A ，无论是参数化组件（例如可学习权重，或带动量梯度下降中的动量项），还是非参数化组件（例如注意力模块），将其频率记为 fA ，即该组件在单位时间内所执行的更新次数。

基于更新频率，定义了一个排序关系（≻）来组织机器学习模型中的各个组件：若组件 A 的更新频率高于 B，或两者频率相同但B 的计算依赖于 A，则称 A ≻ B；若两者互不依赖且频率相同，则视为同频独立。

据此，所有组件被划分为多个有序层级——同一层级内组件更新频率一致，层级越高，更新越慢。重要的是，每个组件都对应一个独立的优化问题和专属的上下文（或梯度）流，既适用于参数化模块（如权重、动量），也兼容非参数化结构（如注意力机制），从而为嵌套学习提供了统一的层级化建模基础。

3）优化器作为学习模块

带动量的梯度下降可被重新诠释为一个两层嵌套优化问题：内层通过梯度下降将历史梯度压缩至动量参数中，外层则利用该动量更新模型权重。

基于此视角进行扩展：通过改变关联记忆的映射目标、损失函数和记忆模块结构，可以系统性地设计出更强大的优化器：

扩展关联：将动量从“无值”记忆（只记忆梯度方向）改为“Key-Value”记忆（例如，学习将梯度映射到预条件矩阵P），这自然引出了预条件动量梯度下降。
扩展目标函数：将内部目标从点积相似度改为L2回归损失，使记忆模块能更有效地管理其有限容量，更好地记忆梯度序列（遵循Delta规则）。
扩展记忆结构：将线性的动量矩阵替换为多层感知机（MLP）等非线性模块，从而大幅提升其学习和捕获梯度动态关系的能力，得到深度动量梯度下降（DMGD）。
引入非线性输出：在动量模块的输出端增加非线性激活函数（如牛顿-舒尔茨迭代），可以进一步增强其表达能力，此类变体即等效于Muon优化器。

最后，将整个预训练或反向传播过程本身也视为一个关联记忆问题：通过将内部目标从点积相似度替换为 L2 回归，显式建模数据点之间的依赖关系，从而导出一种新的梯度下降变体，为后续 HOPE 架构中的内层优化器奠定基础。

（2）HOPE：一种具有持续体记忆的自指学习模块

图3 Hope架构与Transformer的比较（为清晰起见，已移除归一化和潜在的数据相关组件）

现有的主流架构主干通常包含两个部分：

工作记忆模块（例如注意力机制），负责在序列长度维度上主动融合信息；
前馈层（例如 MLP），用于在特征维度上融合信息，并作为预训练阶段的持久记忆或知识存储。

从嵌套学习（NL）的视角来看，预训练对应于学习模块最外层在其有限上下文流上的更新过程。因此，在连续学习场景中，这一预训练阶段极少随时间更新，其对应的知识存储也应极少被修改。

基于这一认识，研究者拓展了传统的“长期/短期记忆”二分观点，提出为每个层级配备一个专属的知识存储前馈模块。

1）连续记忆系统

基于更新频率的定义，连续体记忆系统（被形式化为一个由多层MLP模块构成的层级链：

其中每个模块都与一个大小为1,…,xT}，系统的输出通过逐层前馈计算得到（为简洁起见省略归一化）：

每个模块的参数，并非每步更新，而是每隔步进行一次聚合式更新：

其中为对应学习率，f(⋅) 表示任意优化器的误差信号。

每个参数集通过在其更新周期内压缩上下文信息，逐步编码出对应时间尺度下的抽象知识。高频模块快速响应局部模式，低频模块则稳定积累长期规律，从而在架构层面实现了对多尺度记忆的显式建模。

2）自修正Titans

该模块将输入 xt通过线性投影分别生成键（key）、值（value）、查询（query）、学习率和遗忘门，统一构建于关联记忆范式之上。

进一步，在嵌套优化框架下，各投影由可学习的记忆模块动态生成：

并引入记忆存储模块 Mmem 以支持基于查询的历史 key-value 检索：

这相当于一个动态的注意力机制或外部记忆系统。

然后，每个记忆模块不仅生成自己的Key或Query，还生成自己的Value —— 这是“自指”（self-referential）的核心体现。

每个记忆模块不仅从输入生成Key或Query，还能以其自身输出的Value vt为输入，进一步生成修正后的值，从而实现自指式的学习与更新。

最后，为了优化这些记忆模块，使用带权重衰减的梯度下降（DGD with weight decay），更新规则如下：

综上，研究者基于 Titans 和梯度下降变体，提出自指序列模型。将该模型与连续体记忆系统相结合，便构成了 HOPE 架构。

02 评估

表1 HOPE 与基线模型在语言建模及常识推理任务上的性能表现（带 * 标注的为混合模型）

在语言建模及常识推理任务中，HOPE 在所有模型规模和基准任务上均展现出优异的性能，全面超越了 Transformer 以及近期先进的循环神经网络（包括 Gated DeltaNet 和 Titans）。与 Titans 和 Gated DeltaNet 相比，HOPE 通过根据上下文动态调整Key、Value和Query的投影，并结合深度记忆模块，实现了更低的困惑度和更高的基准任务准确率。

图7 模型记忆层级数量对其上下文学习性能的影响

如图 7 所示。无论采用多少记忆层级，也无论最低更新频率如何设置，HOPE 均优于 ICL 基线和 DuoAttention 方法。此外，通过对比 HOPE 的不同变体，结果表明：更多的记忆层级有助于提升模型的上下文学习能力，并增强其长期记忆能力，从而改善对长上下文的理解；最低更新频率越高，模型性能反而越低。

研究团队结合MTOB和 Manchu两个基准，设计了一项名为“新语言的持续翻译”（CTNL）的新任务：大语言模型需在上下文中依次学习两种低资源语言（Manchu 和 Kalamang），并将其短语翻译成英语。实验包含两种设置：一是独立学习每种语言作为基线（红色），用于衡量灾难性遗忘；二是顺序学习两种语言后再测试（蓝色）。以标准 ICL 为对照，构建了 HOPE-1/2/3 三种变体，分别引入 1 至 3 个额外记忆层级。

如图8所示，在非持续学习设置下，所有 HOPE 变体性能均优于或持平于 ICL；而在持续学习设置中，ICL 因严重灾难性遗忘而大幅退化，HOPE 则随记忆层级增加显著提升性能——其中 HOPE-3 几乎完全恢复了其在非持续学习下的最佳表现。这充分验证了连续体记忆系统（CMS）在支持模型适应新任务并有效保留上下文知识方面的关键作用。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

学习是一个过程，只要学习就会有挑战。天道酬勤，你越努力，就会成为越优秀的自己。

如果你能在15天内完成所有的任务，那你堪称天才。然而，如果你能完成 60-70% 的内容，你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传优快云，朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【`保证100%免费`】

在这里插入图片描述