PyTorch基础入门六：PyTorch搭建卷积神经网络实现MNIST手写数字识别

最新推荐文章于 2025-09-27 16:34:30 发布

原创最新推荐文章于 2025-09-27 16:34:30 发布 · 5.6w 阅读

409 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #深度学习 #机器学习 #PyTorch #CNN

深度学习框架PyTorch 专栏收录该内容

7 篇文章

订阅专栏

本文介绍了卷积神经网络的基本概念及PyTorch中的实现方法，并通过一个MNIST手写数字识别的例子展示了如何构建和训练一个简单的CNN模型。

1）卷积神经网络(CNN)简介

关于什么是卷积神经网络(CNN)，请自行查阅资料进行学习。如果是初学者，这里推荐一下台湾的李宏毅的深度学习课程。链接就不给了，这些资料网站上随处可见。

值得一提的是，CNN虽然在图像处理的领域具有不可阻挡的势头，但是它绝对不仅仅只能用来图像处理领域，大家熟知的alphaGo下围棋也可以通过CNN的结构进行处理，因为下围棋与图像有着相似之处，所以说，CNN提供给我们的是一种处理问题的思想，有学者归纳出了可以用CNN解决的问题所具备的三个性质：

局部性

对于一张图片而言，需要检测图片中的特征来决定图片的类别，通常情况下这些特征都不是由整张图片决定的，而是由一些局部的区域决定的。例如在某张图片中的某个局部检测出了鸟喙，那么基本可以判定图片中有鸟这种动物。

相同性

对于不同的图片，它们具有同样的特征，这些特征会出现在图片的不同位置，也就是说可以用同样的检测模式去检测不同图片的相同特征，只不过这些特征处于图片中不同的位置，但是特征检测所做的操作几乎一样。例如在不同的图片中，虽然鸟喙处于不同的位置，但是我们可以用相同的模式去检测。

不变性

对于一张图片，如果我们进行下采样，那么图片的性质基本保持不变。

2）PyTorch中的卷积神经网络

简要介绍一下PyTorch中卷积神经网络中用到的一些方法。

卷积层：nn.Conv2d()

其参数如下：

参数·	含义
in_channels	输入信号的通道数.
out_channels	卷积后输出结果的通道数.
kernel_size	卷积核的形状. 例如kernel_size=(3, 2)表示3X2的卷积核，如果宽和高相同，可以只用一个数字表示
stride	卷积每次移动的步长, 默认为1.
padding	处理边界时填充0的数量, 默认为0(不填充).
dilation	采样间隔数量, 默认为1, 无间隔采样.
groups	输入与输出通道的分组数量. 当不为1时, 默认为1(全连接).
bias	为 True 时, 添加偏置.

当然，这么多参数有一些是不常用的，读者只需要在实践中慢慢体会一些常用的即可，其他参数需要将理论打扎实之后去官网查阅。

池化层：nn.MaxPool2d()

其参数如下：

参数	含义
kernel_size	最大池化操作时的窗口大小
stride	最大池化操作时窗口移动的步长, 默认值是 kernel_size
padding	输入的每条边隐式补0的数量
dilation	用于控制窗口中元素的步长的参数
return_indices	如果等于 True, 在返回 max pooling 结果的同时返回最大值的索引这在之后的 Unpooling 时很有用
ceil_mode	如果等于 True, 在计算输出大小时,将采用向上取整来代替默认的向下取整的方式

3）实现MNIST手写数字识别

一共定义了五层，其中两层卷积层，两层池化层，最后一层为FC层进行分类输出。其网络结构如下：

中间一行表示当前数据块的维度，第一个维度为深度，后面两个为宽度和高度。输入数据为灰度图，所以深度为1，图片像素为28*28的图片，后面经过卷积，池化，会发现深度不断加深，而宽度和高度会逐渐减少，因此，最后CNN处理过的图片只是一个局部的图片，换句话说，计算机在进行CNN对图片进行识别的时候，它通过观察图片局部的信息来进行分类的，这一点和我们通过人眼来观察图片进行分类是不一样的。

下面是CNN网络的代码实现：

# !/usr/bin/python
# coding: utf8
# @Time    : 2018-08-05 19:22
# @Author  : Liam
# @Email   : luyu.real@qq.com
# @Software: PyCharm
#                        .::::.
#                      .::::::::.
#                     :::::::::::
#                  ..:::::::::::'
#               '::::::::::::'
#                 .::::::::::
#            '::::::::::::::..
#                 ..::::::::::::.
#               ``::::::::::::::::
#                ::::``:::::::::'        .:::.
#               ::::'   ':::::'       .::::::::.
#             .::::'      ::::     .:::::::'::::.
#            .:::'       :::::  .:::::::::' ':::::.
#           .::'        :::::.:::::::::'      ':::::.
#          .::'         ::::::::::::::'         ``::::.
#      ...:::           ::::::::::::'              ``::.
#     ```` ':.          ':::::::::'                  ::::..
#                        '.:::::'                    ':'````..
#                     美女保佑 永无BUG
from torch import nn

class CNN(nn.Module):
    def __init__(self):
        super(CNN, self).__init__()
        self.layer1 = nn.Sequential(
            nn.Conv2d(1, 25, kernel_size=3),
            nn.BatchNorm2d(25),
            nn.ReLU(inplace=True)
        )

        self.layer2 = nn.Sequential(
            nn.MaxPool2d(kernel_size=2, stride=2)
        )

        self.layer3 = nn.Sequential(
            nn.Conv2d(25, 50, kernel_size=3),
            nn.BatchNorm2d(50),
            nn.ReLU(inplace=True)
        )

        self.layer4 = nn.Sequential(
            nn.MaxPool2d(kernel_size=2, stride=2)
        )

        self.fc = nn.Sequential(
            nn.Linear(50 * 5 * 5, 1024),
            nn.ReLU(inplace=True),
            nn.Linear(1024, 128),
            nn.ReLU(inplace=True),
            nn.Linear(128, 10)
        )

    def forward(self, x):
        x = self.layer1(x)
        x = self.layer2(x)
        x = self.layer3(x)
        x = self.layer4(x)
        x = x.view(x.size(0), -1)
        x = self.fc(x)
        return x

然后利用上述模型进行处理，其处理的方法和上一篇博文中的方法是一样的，这里不再赘述。

可以看到处理结果比上一次好多了：

完整代码请移步GitHub

30 条评论

秋霜似鬓 2022.04.04
第二个卷积应该将宽高改成4，即50*4*4，这样 ((13-4)+ 2*0 ) / 1 + 1 = 9 + 1 = 10, 后面才对得上号

BandJam88 2022.01.05
图中经过第二层卷积后宽和高应该是11吧，图上怎么是3；然后过池化层变为5这样才对吧
- LiuWH888回复BandJam88 2022.03.09
  确实是50*11*11

文件传书猪手 2021.10.15
你的开头注释我偷走了

Tisfy 2021.04.22
写得太好了！正如那：我闭南楼看道书，幽帘清寂在仙居。

AI小白20200907 2020.09.20
源码下载不下来，不知道什么原因。

qq_37261722 2020.08.31
提示Process finished with exit code -1073741819 (0xC0000005)是什么原因

心中有个大梦想 2020.05.24
File "C:\Program Files\Python37\lib\site-packages\torchvision\__init__.py", line 1, in <module> from torchvision import models File "C:\Program Files\Python37\lib\site-packages\torchvision\models\__init__.py", line 11, in <module> from . import detection File "C:\Program Files\Python37\lib\site-packages\torchvision\models\detection\__init__.py", line 1, in <module> from .faster_rcnn import * File "C:\Program Files\Python37\lib\site-packages\torchvision\models\detection\faster_rcnn.py", line 7, in <module> from torchvision.ops import misc as misc_nn_ops File "C:\Program Files\Python37\lib\site-packages\torchvision\ops\__init__.py", line 1, in <module> from .boxes import nms, box_iou File "C:\Program Files\Python37\lib\site-packages\torchvision\ops\boxes.py", line 2, in <module> from torchvision import _C ImportError: DLL load failed: 找不到指定的模块。请问怎么回事呢

buling_buling_ 2020.05.06
楼主你的cnn网络结构是什么的？是lenet吗，作为小白我想问，lenet结构卷积核不是5*5的吗？

lmw0320 2019.07.30
感觉输出层采用relu函数应该是错的吧。。。其值域并不在0-1区间，无法将倒数第二层的输出值，转换成概率。
- lmw0320回复qq_43332555 2020.03.02
  [reply]qq_43332555[/reply]对于多分类模型，一般都是采用softmax激活，而对于二分类模型，则一般采用sigmoid激活
- qq_43332555回复lmw0320 2020.02.29
  应该用softMax吗

lmw0320 2019.07.25
前面的文章中，def __init__(self)里，还要传入相应的输入层、中间层、输出层的神经元个数参数。。这个没有参数传入，该怎么用? 我也调用了这个类，也没有传入参数，但是会报错： Expected 4-dimensional input for 4-dimensional weight 25 1, but got 2-dimensional input of size [64, 784] instead 这个怎么破
- waocheese回复daoyang1024 2020.03.28
  [reply]juyuyh[/reply]谢谢！
- daoyang1024回复waocheese 2020.03.27
  [reply]waocheese[/reply]cnn调用的时候输入的形状不一样是torch.Size([64, 1, 28, 28])，参考这个调用就行了https://github.com/liamlycoder/PyTorch_Primer/blob/master/PyTorch_Primer/05CNNonMNIST/work.py
- waocheese回复daoyang1024 2020.03.27
  [reply]juyuyh[/reply]我也碰到这个问题了，请问能否告知一下您的解决方法呢，十分感谢！！
- daoyang1024回复lmw0320 2020.03.23
  [reply]lmw0320[/reply]感谢,我已经解决了
- lmw0320回复daoyang1024 2020.03.23
  [reply]juyuyh[/reply]隔太久了，我也忘记了。。按照报错的内容，应该是数据形状不对。。要求输入的数据形状是4维的，实际却是二维的。。
- daoyang1024回复lmw0320 2020.03.23
  [reply]lmw0320[/reply]请问您找到关于那个报错的解决办法吗?
- 叫我PT回复lmw0320 2020.02.21
  [reply]lmw0320[/reply]你把那个__init__声明时候的参数只保留self