让AI告别 “学新忘旧”：谷歌Nested Learning让AI拥有持续学习的生命力

最新推荐文章于 2025-12-02 23:40:44 发布

原创最新推荐文章于 2025-12-02 23:40:44 发布 · 920 阅读

·

15

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#人工智能 #学习

AI大模型，在预训练阶段吞下整个人类互联网的知识，而在训练结束后，几乎丧失了形成新的长期记忆的能力。

而且，每当模型试图学习新知识时，就会像覆盖旧磁带一样，不可避免地损害甚至抹去已经掌握的旧技能。

Google Research的几位科学家，向全世界展示了他们的一项研究，直指这个AI领域最根本的难题之一。

他们的研究论文《Nested Learning: The Illusion of Deep Learning Architectures》（嵌套学习：深度学习架构的幻觉），已提交给顶级会议NeurIPS 2025。

问题的根源：被割裂的架构与算法

长期以来，为了缓解灾难性遗忘，研究者们兵分两路。

一路人马专注于调整模型架构，比如设计更精巧的记忆模块。另一路人马则致力于改进优化算法，比如调整模型参数更新的规则。

这两条路径几乎是独立发展的，人们习惯性地将模型的结构和训练方法视为两个独立的组件。

这种碎片化的视角，虽然取得了一些进展，但始终未能从根本上解决问题。模型依然像一个静态的知识库，一旦定型，便难以生长。

Nested Learning（嵌套学习）的提出，旨在彻底打破这种认知框架。它认为，模型的架构和优化算法并非两个独立的东西，而是一个统一的、相互嵌套的系统。它们只是在不同层级上运行的优化问题而已。

这个想法，为构建一个能真正持续学习的AI，铺设了全新的理论基石。

Nested Learning的核心思想极其精炼：一个复杂的机器学习模型，本质上是一组相互嵌套或并行运行的优化问题。

想象一下人脑是如何学习的。

我们对眼前事物的瞬时记忆，更新速度极快。为了应付考试而进行的短期记忆，更新速度次之。而那些构成我们世界观、价值观的长期知识，则更新得非常缓慢，需要长时间的巩固。

人脑中并不存在一个统一的学习开关，而是无数个学习过程在以不同的速度同时进行。

Nested Learning将这个洞察应用到了AI上。它引入了一个关键概念：更新频率（Update Frequency）。

模型中的任何一个组件，无论是权重参数，还是优化器中的动量项，都有自己的更新频率。有些组件变得快，有些变得慢。这种快慢之分，自然形成了一种层级结构。

比如，一个最简单的梯度下降优化过程，在Nested Learning的视角下，可以被重新理解为一个嵌套结构。

外层，是模型参数W的学习。它的目标是找到最优的W，以最小化在训练数据上的损失。这是一个慢过程。

内层，是权重更新规则本身。每一步更新，都可以看作一个微型的、独立的优化问题。它的目标是根据当前的梯度信息，最有效地调整W。这是一个快过程。

就连Adam这类高级优化器里的动量项，也可以被看作是一个微型的关联记忆模块。它的任务只有一个：用梯度下降的方式，将过去一系列的梯度信息压缩并存储起来，供外层的参数学习使用。

所以，优化器本身就是一个学习模块。架构与优化，在这一刻实现了统一。

这个看似简单的视角转换，打开了一个全新的维度。如果优化器本身就是个学习器，我们为什么不能让它变得更强大、更深呢？

三大创造：从理论到可触摸的AI实体

基于Nested Learning的统一框架，研究者们顺理成章地提出了三大核心贡献，将这一理论转化为了具体的技术路径。

首先是深度优化器（Deep Optimizers）。

既然标准优化器可以被看作是简单的关联记忆模块，那么我们完全可以用一个更复杂的模型，比如一个小型神经网络（MLP），来替代它。这就诞生了所谓的深度动量梯度下降（DMGD）。这个深度的优化器，拥有更强的表达能力，能更智能地学习如何利用历史梯度信息来指导模型的训练。

其次是自修改架构（Self-Modifying Titans）。

研究者们将这一思想应用于序列模型，对Google先前发布的Titans架构进行了扩展。新的架构不仅学习外部世界的知识，还学习如何学习。它能根据任务动态地调整自身的学习算法，包括注意力机制中的键、值、查询投影等关键部分。这让模型拥有了某种程度的自我意识，能够在使用过程中不断优化自己的学习策略。

最后是连续记忆系统（Continuum Memory System, CMS）。

这彻底颠覆了传统AI模型中短期记忆（如注意力）和长期记忆（如前馈网络）的二元划分。CMS将记忆视为一个连续的光谱。

它由一系列神经网络块（MLP blocks）链接而成，每个块都关联着一个特定的更新频率。

更新最频繁的块，负责处理瞬息万变的上下文信息，如同我们的工作记忆。

更新频率稍慢的块，负责整合一个阶段内的知识，形成中期记忆。

而更新最慢的块，则负责将长期、稳定、抽象的知识沉淀到参数中，形成模型的世界观。

这种多速率的记忆系统，使得模型可以在不干扰核心知识的情况下，灵活地吸收新信息，从而在根本上解决了灾难性遗忘问题。

HOPE架构：一个会呼吸的生命体

理论的价值，最终要由实践来检验。

研究团队将上述三大贡献融为一体，构建了一个全新的、基于Nested Learning原则的自引用学习模块，并将其命名为HOPE（Hybrid Optimizer with Persistent Embedding）。

下图清晰地展示了HOPE架构与传统Transformer架构主干的差异。

传统的Transformer，其前馈网络层在训练后基本是静态的，负责存储持久化的知识。而HOPE则为每一个记忆层级（对应不同的更新频率）都配备了专属的前馈网络，形成了一个多层次、动态更新的知识存储系统。

这让HOPE架构看起来更像一个有生命的组织，拥有不同节律的呼吸和心跳。

性能测试数据证明了这种设计的优越性。

研究者们在语言建模和常识推理任务上，对340M、760M和1.3B三种参数规模的HOPE模型进行了全面测试。

HOPE的平均分，超越了所有对比模型。

HOPE表现出更低的困惑度，更高的准确率。

Hope在长上下文的Needle in Haystack（NIAH）下游任务中展示了卓越的内存管理，证明CMS提供了一种更高效、更有效的方法来处理扩展的信息序列。

Nested Learning将从根本上改变需要终身学习的应用领域，比如机器人、自动驾驶、个性化AI助手等。

这些系统将不再需要昂贵的、从头开始的再训练，而是能够像我们一样，在保留已有知识的基础上，不断学习和成长。

研究者们也坦诚，目前的研究主要聚焦于记忆的在线巩固过程，而对类似人脑睡眠时的离线重放和整理机制涉猎不多。

但无论如何，它让我们距离那个能像人类一样持续学习、不断进化的通用人工智能，又近了一步。

参考资料：

https://research.google/blog/introducing-nested-learning-a-new-ml-paradigm-for-continual-learning/

https://abehrouz.github.io/files/NL.pdf

END

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。