神经元网络
神经网络的起源与发展
1. 起源(1940s-1980s)
-
1943年:McCulloch-Pitts神经元模型
数学家Warren McCulloch和逻辑学家Walter Pitts提出首个简化神经元数学模型,模拟生物神经元的“激活”特性(输入加权求和后,若超过阈值则输出1,否则0),奠定了神经网络的理论基础。 -
1958年:感知机(Perceptron)
Frank Rosenblatt发明感知机,首次实现可训练的线性二分类模型。它通过调整权重来最小化分类错误,但只能处理线性可分问题(如XOR问题无法解决),导致第一次AI寒冬。
-
1969年:Minsky的批判
Marvin Minsky在《Perceptrons》中指出感知机的局限性,导致神经网络研究陷入低谷,转向符号主义AI。
2. 复兴与突破(1980s-2000s)
-
1986年:反向传播算法(Backpropagation)
Rumelhart、Hinton等人提出反向传播算法,解决了多层网络参数优化问题,使得训练深度网络成为可能。但受限于算力和数据,仅能训练浅层网络。 -
1989年:卷积神经网络(CNN)雏形
Yann LeCun提出LeNet,首次将卷积层、池化层用于手写数字识别,但受硬件限制未广泛应用。
-
1990s:支持向量机(SVM)的竞争
统计学习方法(如SVM)在效果和理论完备性上超越神经网络,导致其再次遇冷。
3. 深度学习革命(2006年至今)
-
2006年:深度学习奠基
Geoffrey Hinton提出深度信念网络(DBN),通过无监督预训练初始化权重,突破深层网络训练难题。 -
2012年:AlexNet崛起
Alex Krizhevsky的AlexNet在ImageNet竞赛中以CNN大幅降低错误率,引爆深度学习热潮。GPU加速和大数据成为关键推动力。 -
2014年:架构创新潮
- GAN(生成对抗网络):Ian Goodfellow提出,开启生成模型新方向。
- ResNet(残差网络):何恺明团队通过跳跃连接解决梯度消失,训练超千层网络。
- Transformer:Vaswani等人在《Attention Is All You Need》中提出,彻底改变序列建模。
神经网络基本原理
1. 核心组件
- 神经元(Neuron):输入加权求和后,经激活函数(如ReLU、Sigmoid)输出非线性结果。
- 层(Layer):输入层→隐藏层(多个)→输出层,深度决定模型复杂度。
- 损失函数(Loss Function):衡量预测与真实值差距(如交叉熵、均方误差)。
- 优化器(Optimizer):梯度下降及其变种(如Adam),调整参数以最小化损失。