LeNet-5上手敲代码_lenet5代码-优快云博客

本文链接：https://blog.youkuaiyun.com/qq_73910510/article/details/138627283

LeNet-5

LeNet-5由Yann LeCun在1998年提出，旨在解决手写数字识别问题，被认为是卷积神经网络的开创性工作之一。该网络是第一个被广泛应用于数字图像识别的神经网络之一，也是深度学习领域的里程碑之一。

在这里插入图片描述

总体来看LeNet-5由两个部分组成：

卷积编码器：由两个卷积层和两个下采样层组成;

全连接层密集块：由三个全连接层组成

特点：

1.相比MLP，LeNet使用了相对更少的参数，获得了更好的结果。

2.设计了MaxPool来提取特征

通过观察模型的整体架构，可以知到LeNet-5只用了三个基本的层——卷积层、下采样层、全连接层，因此我们很容易写出模型的基本框架。

其中Gaussian connections也是一个全连接层。Gaussian Connections利用的是RBF函数（径向欧式距离函数），计算输入向量和参数向量之间的欧式距离。目前该方式基本已淘汰，取而代之的是Softmax。

为了提高模型的性能，我们会在卷积层与下采样层之间添加一个Relu激活函数，因此模型的整体流程架构为：

Convolutions -> Relu->Subsampling -> Convolutions -> Relu-> Subsampling -> Full connection -> Full connection -> Full connection

在pytorch中，卷积层对应的是nn.Conv2d()方法，下采样层可以使用pytorch中的最大池化下采样nn.MaxPool2d()方法来实现，全连接层可以使用nn.Linear()方法来实现。

确定参数：

卷积层：对于LeNet-5论文中输入的图片是 $32 \times 32$ 大小的图片(图片通道个数为3)。因此第一个卷积层的输入的通道个数为3，输出的通道个数为16，也就是说一共有16个卷积核。卷积核的个数等于通过卷积后图片的通道个数。

我们可以根据如下公式来计算出卷积核的大小。

计算卷积后图像宽和高的公式

$Input：(N， C_{in}，H_{in}，W_{in})$

$Output：(N，C_{out}，H_{out}，W_{out})$