深度卷积神经网络（CNN）— NiN

彬彬侠

已于 2025-01-23 12:34:44 修改

阅读量996

点赞数 13

CC 4.0 BY-SA版权

分类专栏：深度学习文章标签： NiN 网络中的网络 GAP PyTorch Python 神经网络深度学习

于 2025-01-23 11:02:48 首次发布

本文链接：https://blog.youkuaiyun.com/u013172930/article/details/145319752

深度学习专栏收录该内容

50 篇文章

订阅专栏

NiN（Network in Network）网络简介

NiN（Network in Network） 是一种改进的卷积神经网络架构，由 Lin et al. 在 2013 年提出。该模型的核心思想是通过在每个卷积层后引入 “网络中的网络”（Network in Network）结构，使用小型全连接网络（通常是 $\times 1$ 的卷积层）来提升模型的非线性表达能力。

NiN 的主要目标是克服传统卷积神经网络中由于单个卷积核的限制导致的表达能力不足的问题，从而在图像分类任务中提高性能。

1. NiN 的核心思想

网络中的网络（Network in Network）
- 在传统 CNN 中，每个卷积操作后的激活图通过线性操作（卷积）和非线性激活函数（如 ReLU）生成。然而，这种方式的表达能力受到单个卷积核的限制。
- NiN 提出了使用一个微型多层感知机（MLP）替代单一的卷积核，将每个像素点（或局部区域）的特征映射到更高维度，从而增强模型的非线性表示能力。
- 实现方式：使用多个连续的 $\times 1$ 卷积层（被视为 MLP），对每个像素点进行多层的非线性特征变换。
全局平均池化（Global Average Pooling, GAP）
- 传统 CNN 通常使用全连接层（fully connected layers）将特征映射到分类结果，这会带来大量参数，容易导致过拟合。
- NiN 使用全局平均池化替代全连接层，对每个通道的激活值进行平均，从而直接输出类别概率。
- 优势：减少了参数量，提高了泛化能力。

2. NiN 的网络结构

NiN 的结构由多个 NiN 块（NiN block） 组成，每个块包含三个主要部分：

卷积层：提取局部特征。
多层感知机卷积层（MLPConv）：
- 由多个 $\times 1$ 卷积层组成。
- 提高局部特征的非线性表达能力。
池化层：对特征进行降维（如最大池化）。

NiN 的网络通常由以下几部分组成：

多个 NiN 块：
- 每个块由一个卷积层和多个 $\times 1$ 卷积层（MLPConv）组成。
- 之后接最大池化层（Max Pooling）进行降维。
全局平均池化层（GAP）：
- 替代全连接层，将每个通道的特征平均化，直接输出类别概率。

NiN 网络架构

以 NiN 用于 ImageNet 分类任务的网络架构为例：

输入层：
- 图像大小为 $224 \times 224 \times 3$ （彩色图像）。
第一块 NiN 块：
- $11 \times 11$ 卷积层，步幅 4，输出通道数为 96。
- 两个 $\times 1$ 卷积层，增加非线性表示。
- 最大池化（ $\times 3$ ，步幅 2）。
第二块 NiN 块：
- $\times 5$ 卷积层，步幅 1，输出通道数为 256。
- 两个 $\times 1$ 卷积层。
- 最大池化（ $\times 3$ ，步幅 2）。
第三块 NiN 块：
- $\times 3$ 卷积层，步幅 1，输出通道数为 384。
- 两个 $\times 1$ 卷积层。
- 最大池化（ $\times 3$ ，步幅 2）。
全局平均池化层：
- 对每个通道进行全局平均池化，将特征图从 $\times W$ 降到 $\times 1$ 。
输出层：
- 使用 softmax 激活函数，将结果映射到类别概率。

3. NiN 的实现

以下是 NiN 的 PyTorch 实现：

import torch
import torch.nn as nn
import torch.nn.functional as F

class NiNBlock(nn.Module):
    def __init__(self, in_channels, out_channels, kernel_size, stride, padding):
        super(NiNBlock, self).__init__()
        self.conv = nn.Conv2d(in_channels, out_channels, kernel_size, stride, padding)
        self.mlpconv1 = nn.Conv2d(out_channels, out_channels, kernel_size=1)
        self.mlpconv2 = nn.Conv2d(out_channels, out_channels, kernel_size=1)
        self.relu = nn.ReLU()

    def forward(self, x):
        x = self.relu(self.conv(x))
        x = self.relu(self.mlpconv1(x))
        x = self.relu(self.mlpconv2(x))
        return x

class NiN(nn.Module):
    def __init__(self, num_classes=10):
        super(NiN, self).__init__()
        self.nin_block1 = NiNBlock(3, 96, kernel_size=11, stride=4, padding=0)
        self.nin_block2 = NiNBlock(96, 256, kernel_size=5, stride=1, padding=2)
        self.nin_block3 = NiNBlock(256, 384, kernel_size=3, stride=1, padding=1)
        self.global_avg_pool = nn.AdaptiveAvgPool2d((1, 1))
        self.fc = nn.Conv2d(384, num_classes, kernel_size=1)

    def forward(self, x):
        x = self.nin_block1(x)
        x = F.max_pool2d(x, kernel_size=3, stride=2)
        x = self.nin_block2(x)
        x = F.max_pool2d(x, kernel_size=3, stride=2)
        x = self.nin_block3(x)
        x = F.max_pool2d(x, kernel_size=3, stride=2)
        x = self.global_avg_pool(x)
        x = self.fc(x)
        return x.view(x.size(0), -1)

# 创建 NiN 模型实例
model = NiN(num_classes=10)
print(model)

4. NiN 的创新点

MLPConv（网络中的网络）：
- 使用 $\times 1$ 卷积核代替传统 CNN 中的全连接层，显著增强了局部特征的非线性表示能力。
- 每个像素点的特征由一个小型 MLP 网络计算。
全局平均池化（GAP）：
- 使用全局平均池化替代全连接层，减少了模型参数量，降低了过拟合风险。
- 增强了模型对输入图像大小变化的鲁棒性。
参数减少：
- 与传统 CNN 模型相比，NiN 通过使用 $\times 1$ 卷积和 GAP 大幅减少了参数量。