「深度学习一遍过」必修9：解读卷积神经网络 AlexNet

最新推荐文章于 2024-04-18 16:28:07 发布

荣仔！最靓的仔！

最新推荐文章于 2024-04-18 16:28:07 发布

阅读量1.1k

点赞数 1

分类专栏：「深度学习一遍过」必修篇文章标签： python pytorch alexnet模型 alexnet pycharm

本文链接：https://blog.youkuaiyun.com/IT_charge/article/details/119301722

版权

「深度学习一遍过」必修篇专栏收录该内容

28 篇文章

订阅专栏

本专栏用于记录关于深度学习的笔记，不光方便自己复习与查阅，同时也希望能给您解决一些关于深度学习的相关问题，并提供一些微不足道的人工神经网络模型设计思路。
专栏地址：「深度学习一遍过」必修篇

3.1 通过 torchvision.models 导入 AlexNet

3.2 Ctrl + 鼠标左键进入 AlexNet 源码

1 AlexNet 模型解读

1.1 AlexNet 模型特点

$AlexNet$ 论文的特点如下：

更深的网络结构
使用层叠的卷积层，即卷积层 $+$ 卷积层 $+$ 池化层来提取图像的特征
使用 $Dropout$ 抑制过拟合
使用数据增强 $Data$ $Augmentation$ 抑制过拟合
使用 $Relu$ 替换之前的 $sigmoid$ 的作为激活函数
使用多 $GPU$ 进行训练

1.2 AlexNet 模型结构

$AlexNet$ 网络结构如下：

1.2.1 卷积层1

输入图像大小： $277\times 277\times 3$

卷积核大小： $11\times 11$
数量： $48$ 个
步长： $4$
激活函数： $relu$
两台 $GPU$ 同时训练，即共 $96$ 个核
输出特征图大小： $(227-11)/4+1=55$ ，即 $55\times 55\times 96$

池化： $kernel$ $size=3$ ， $stride=2$

输出特征图大小： $(55-3)/2+1=27$ ，即 $27\times 27\times 96$

标准化

1.2.2 卷积层2

输入图像大小： $27\times 27\times 96$

卷积核大小： $5\times 5$
数量： $128$ 个
步长： $1$
激活函数： $relu$
输出特征图像先扩展 $2$ 个像素，即大小 $31\times 31$
输出特征图大小： $(31-5)/1+1=27$ ，即 $27\times 27\times 256$

池化： $kernel$ $size=3$ ， $stride=2$

输出特征图大小： $(27-3)/2+1=13$ ，即 $13\times 13\times 256$

标准化

1.2.3 卷积层3

输入图像大小： $13\times 13\times 256$

卷积核大小： $3\times 3$
数量： $192$ 个
步长： $1$
激活函数： $relu$
输出特征图像先扩展 $1$ 个像素，即大小 $15\times 15$
输出特征图大小： $(15-3)/1+1=13$ ，即 $13\times 13\times 384$

1.2.4 卷积层4

输入图像大小： $13\times 13\times 384$

卷积核大小： $3\times 3$
数量： $192$ 个
步长： $1$
激活函数： $relu$
输出特征图像先扩展 $1$ 个像素，即大小 $15\times 15$
输出特征图大小： $(15-3)/1+1=13$ ，即 $13\times 13\times 384$

1.2.5 卷积层5

输入图像大小： $13\times 13\times 384$

卷积核大小： $3\times 3$
数量： $128$ 个
步长： $1$
激活函数： $relu$
输出特征图像先扩展 $1$ 个像素，即大小 $15\times 15$
输出特征图大小： $(15-3)/1+1=13$ ，即 $13\times 13\times 256$

池化： $kernel$ $size=3$ ， $stride=2$

输出特征图大小： $(13-3)/2+1=6$ ，即 $6\times 6\times 256$

1.2.6 全连接6

输入图像大小： $6\times 6\times 256$
共 $4096$ 个神经元
$dropout$
输出 $4096\times 1$ 个向量

1.2.7 全连接7

输入图像大小： $4096\times 1$
共 $4096$ 个神经元
$dropout$
输出 $4096\times 1$ 个向量

1.2.8 全连接8

输入图像大小： $4096\times 1$
共 $1000$ 个神经元
$dropout$
输出 $1000\times 1$ 个向量

$Dropout$ 也可以看成是一种模型组合，每次生成的网络结构都不一样，通过组合多个模型的方式能够有效地减少过拟合。

2 AlexNet工程技巧

多 GPU 训练，ReLU 激活函数，LRN 归一化，Dropout 正则化，重叠池化，数据增强

Dropout，防止过拟合，提高泛化能力
重叠池化(overlapping)，更有利于减轻过拟合
裁剪翻转等数据增强策略，提高模型泛化能力
多 GPU 训练，尽量使用更多特征图，并减少计算量
LRN 归一化，抑制反馈较小的神经元，放大反馈较大的神经元，增强模型泛化能力
ReLU 激活函数，加快模型收敛

3 代码解读

3.1 通过 torchvision.models 导入 AlexNet

from torchvision.models import AlexNet

3.2 Ctrl + 鼠标左键进入 AlexNet 源码

class AlexNet(nn.Module):

    def __init__(self, num_classes: int = 1000) -> None:
        super(AlexNet, self).__init__()
        self.features = nn.Sequential(
            nn.Conv2d(3, 64, kernel_size=11, stride=4, padding=2),
            nn.ReLU(inplace=True),
            nn.MaxPool2d(kernel_size=3, stride=2),
            nn.Conv2d(64, 192, kernel_size=5, padding=2),
            nn.ReLU(inplace=True),
            nn.MaxPool2d(kernel_size=3, stride=2),
            nn.Conv2d(192, 384, kernel_size=3, padding=1),
            nn.ReLU(inplace=True),
            nn.Conv2d(384, 256, kernel_size=3, padding=1),
            nn.ReLU(inplace=True),
            nn.Conv2d(256, 256, kernel_size=3, padding=1),
            nn.ReLU(inplace=True),
            nn.MaxPool2d(kernel_size=3, stride=2),
        )
        self.avgpool = nn.AdaptiveAvgPool2d((6, 6))
        self.classifier = nn.Sequential(
            nn.Dropout(),
            nn.Linear(256 * 6 * 6, 4096),
            nn.ReLU(inplace=True),
            nn.Dropout(),
            nn.Linear(4096, 4096),
            nn.ReLU(inplace=True),
            nn.Linear(4096, num_classes),
        )

    def forward(self, x: torch.Tensor) -> torch.Tensor:
        x = self.features(x)
        x = self.avgpool(x)
        x = torch.flatten(x, 1)
        x = self.classifier(x)
        return x