各种各样的神经网络 architecture 是怎么被发明的？

本文链接：https://blog.youkuaiyun.com/qq_63315166/article/details/145067673

AI研究者到底在玩啥？

有人说，AI研究者设计神经网络，就像“科学界的乐高玩家”：你以为他们是灵感爆棚、拍脑袋搞创意，但实际上，人家背后有一套科学方法论，还夹带着点艺术家的浪漫。

你可能看过那些复杂得像艺术品一样的网络结构——ResNet 的残差连接、Inception 的多分支卷积、Transformer 的全注意力机制……但这些网络到底是怎么“被发明”的？研究者真的有个秘密公式，能把这些复杂设计一键生成吗？

神经网络的设计背后，其实有套路。

神经网络架构是怎么“进化”的？

AI网络的设计其实像一场“进化论”，它不是一夜之间就变得复杂，而是从简单开始，不断试错、优化、调整，逐渐长成现在的样子。

起点：从简单堆叠到问题驱动

多层感知机（MLP）：神经网络的原点

早期的网络架构非常简单，就是几个全连接层的堆叠，没别的花里胡哨。MLP 可以看作是深度学习的原始版本，但它效率低，无法很好地处理图像、语音等高维数据。

卷积神经网络（CNN）：为图像设计的第一步
LeNet（1998）是经典 CNN 的开山之作。设计者 Yann LeCun 发现，图像具有“局部关联性”，于是用卷积核代替了传统的全连接网络，从而高效提取图像特征。

这也给了后来者启示：架构设计要从问题的本质出发。图像是二维数据，局部特征最重要，CNN 的设计正是抓住了这一点。

深度：从“简单越深越好”到“问题越深越多”

ResNet（2015）：深度学习的真正开挂

深度学习的逻辑是：网络越深，效果越好。可事实却很打脸——研究者发现，网络越深，模型越容易“退化”（性能反而下降）。何凯明团队从梯度消失的问题出发，发明了 残差连接（skip connection）：让某些层的输入直接跳过传递到后续层，避免梯度消失。
核心点：ResNet 的发明不是瞎猜，而是为了“治病救命”，针对梯度消失的痛点，设计了一种简单但有效的跳跃结构。

Inception 网络（2014-2016）：你觉得哪种卷积核好用？要不都试试？

GoogLeNet 提出了一个极其灵活的设计：同时用 1x1、3x3 和 5x5 卷积核提取特征，再将它们拼起来。这看似很复杂，但本质上是在尝试用不同尺度捕获数据特性。
核心点：这个设计思路非常启发性，告诉我们网络架构可以“广撒网、多尝试”，然后通过实验找到最佳组合。

特定任务：为特殊需求量身定制

LSTM（1997）：解决序列问题的关键

RNN 是处理时间序列的经典网络，但它有个大问题：无法捕获长期依赖。LSTM 的发明者提出了“记忆单元”的设计：加入输入门、遗忘门和输出门，通过控制信息流动来解决长期依赖问题。
核心点：针对性地解决痛点，设计专门的结构模块（LSTM 单元）。

Transformer（2017）：打破 RNN 递归的“枷锁”

RNN 在序列任务中已经火了很多年，但它有一个致命缺陷：计算不能并行。Transformer 的设计者 Vaswani 团队直接“拆家”：用全局注意力机制取代递归计算，让序列任务并行化，彻底颠覆了 NLP 的世界。
核心点：不要执着于传统设计（RNN 的递归结构），创新可以来自对问题本质的重新理解。