LeNet-5 介绍
LeNet-5 是由 Yann LeCun 及其团队于 1998 年提出的一种早期卷积神经网络(CNN),主要用于手写数字识别任务。它是现代深度学习中卷积神经网络的奠基之作,结构相对简单,但奠定了CNN的核心设计理念。
LeNet-5 的结构 1
LeNet-5 的结构如下:
- 输入层:处理大小为 (32 \times 32) 的灰度图像,通道数为 1。
- 卷积层 (C1):使用 6 个 (5 \times 5) 的卷积核,步长为 1,输出通道数为 6,输出尺寸为 (28 \times 28 \times 6)。
- 池化层 (S1):使用 (2 \times 2) 的平均池化,步长为 2,输出尺寸为 (14 \times 14 \times 6)。
- 卷积层 (C2):使用 16 个 (5 \times 5) 的卷积核,步长为 1,输出通道数为 16,输出尺寸为 (10 \times 10 \times 16)。
- 池化层 (S2):使用 (2 \times 2) 的平均池化,步长为 2,输出尺寸为 (5 \times 5 \times 16)。
- 卷积层 (C3):使用 120 个 (5 \times 5) 的卷积核,步长为 1,输出通道数为 120,输出尺寸为 (1 \times 1 \times 120)。
- 全连接层 (F6):将 120 个特征映射到 84 个神经元。
- 输出层 (F7):将 84 个神经元映射到 10 个类别(0-9数字)。
LeNet-5 的特点 1
- 卷积层:通过小卷积核提取局部特征,减少了参数数量。
- 池化层:通过平均池化降低维度,提高模型的平移不变性。
- 全连接层:将卷积层提取的特征转化为最终的分类结果。
LeNet-5 的改进方法
虽然 LeNet-5 在手写数字识别任务上取得了成功,但其结构和性能在面对更复杂的任务时显得不足。为了应对这些挑战,研究者提出了一系列改进方法,以下是主要改进方向: