介绍最前沿的人工智能创新，‘无反向传播’神经网络训练方法？

最新推荐文章于 2025-12-11 20:59:23 发布

原创

最新推荐文章于 2025-12-11 20:59:23 发布 · 1k 阅读

13 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #AI员工 #神经网络 #深度学习 #机器学习 #语言模型

图像由 Google ImageFX 生成

前言：

📌 本文整理自 NoProp 原始论文与实践代码，并结合多个公开实现细节进行了全流程复现。
🔍 对神经网络训练机制的探索仍在不断演进，如果你也在研究反向传播之外的新路径，这篇内容可能会给你一些启发。

正文：

反向传播（Backpropagation）首次出现在 1986 年，是如今几乎所有主流机器学习模型训练背后的关键算法之一。
它简单，容易实现，而且在训练大规模神经网络时效果很好。
不过，尽管被广泛接受为最优方法，它还是有一些明显的缺点，比如训练时内存占用高、以及因为算法是顺序执行的，难以实现并行训练。
那有没有一种算法，可以有效训练神经网络，又不带这些缺点？
牛津大学的一个研究团队刚刚提出了这样一种算法，它直接把反向传播给淘汰了。
他们的算法叫做 NoProp，甚至连前向传播都不需要，它基于扩散模型（Diffusion models）的原理，可以在不传递梯度的情况下，独立训练神经网络的每一层。

我们接下来就要深入探索这个算法的工作机制，对比其效果，还会从零开始写代码训练一个神经网络。
走起！

但首先，啥是反向传播？

MLP（多层感知机，Multi-Layer Perceptron）是全连接前馈型的深度神经网络，是今天所有 AI 技术的核心结构。
它们由一种叫“神经元”的单元组成。

神经元内部结构，是 MLP 的基本单位

神经元被堆叠成多层，在 MLP 中，一层的每个神经元都会和下一层的每个神经元相连接。

MLP 中连接方式的示意图

训练时，输入数据会穿过这些神经网络，每一层会对它施加权重、偏置和激活函数，逐层处理，最终在最后一层输出结果或预测。
这个过程叫作 前向传播（Forward pass 或 Forward propagation）。

前向传播的可视化

接下来，前向传播得到的输出会和输入数据对应的真实标签做比较，计算出误差或损失函数。
这时就轮到反向传播算法上场了，它会从最后一层开始，计算损失函数对网络参数（权重和偏置）的梯度。
这个过程通过微积分中的链式法则完成，并告诉我们每个参数对错误有多大贡献（也叫 credit assignment）。
这一步就叫 反向传播（Backward pass）。

反向传播的可视化

完成反向传播后，优化器会一层层更新/调整这些参数，以降低损失，从而让模型变得更优秀。

但反向传播的问题在哪？

尽管反向传播效果很好，但它对内存的消耗非常大。
你还记得前向传播时，每一层输出的结果吗？这些输出也叫作“中间激活值（Intermediate activations）”，它们必须被存储，因为后面做反向传播时还需要用到。
对于有几百层、上百万神经元的神经网络来说，训练时光是存这些中间激活值就可能占用好几个 GB 的 GPU 显存。
（确实有像“梯度检查点（Gradient checkpointing）”这种技术来缓解这个问题，但本质上还是很耗资源。）

此外，由于反向传播是顺序算法，每一层的梯度计算都依赖于下一层的梯度。
这意味着我们无法把所有层的梯度计算并行执行，每一层都得等下一层计算完自己那部分梯度，才能继续。

而且，用反向传播训练出来的神经网络，是按“分层方式”来学习的，也就是说，学习过程是分多个抽象层级的，低层学简单模式，高层在此基础上学更复杂的。
但当梯度从高层向低层传播时，不同任务或样本的数据更新有可能会互相干扰，甚至导致模型把以前学过的东西彻底忘掉（这个现象叫 灾难性遗忘 Catastrophic Forgetting）。

以下是之前出现过的一些反向传播替代方法，但都没太成功，因为它们在准确率、计算效率、可靠性或可扩展性方面表现不佳：