卷积神经网络进阶篇

原创已于 2025-02-26 20:51:33 修改 · 964 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#cnn #人工智能 #神经网络

于 2025-02-25 20:37:06 首次发布

卷积神经网络系列专栏收录该内容

3 篇文章

订阅专栏

部署运行你感兴趣的模型镜像

卷积神经网络进阶篇

1. 引言

卷积神经网络（Convolutional Neural Networks, CNN）是深度学习在计算机视觉领域的重要突破之一。它广泛应用于图像分类、目标检测、语义分割等任务。

在本篇博客中，我们将深入探讨 CNN 的高级概念，包括高级网络架构、注意力机制、CNN 结合 Transformer 等。

2. CNN 的核心组件回顾

在深入研究 CNN 的进阶内容前，我们先回顾一下 CNN 的基本组成部分：

卷积层（Convolutional Layer）：用于提取图像特征。
池化层（Pooling Layer）：减少计算量，提高模型的平移不变性。
全连接层（Fully Connected Layer）：用于分类任务。
激活函数（Activation Function）：如 ReLU，增加非线性能力。
批归一化（Batch Normalization）：加速训练，提高稳定性。

3. 经典 CNN 结构演进

随着深度学习的发展，CNN 的架构不断演进，以下是几种经典的 CNN 结构：

3.1 LeNet-5

LeNet-5 由 Yann LeCun 提出，是最早的 CNN 之一，主要用于手写数字识别。

3.2 AlexNet

AlexNet 在 2012 年 ImageNet 竞赛中取得突破，使用 ReLU 作为激活函数，并引入 Dropout 防止过拟合。

3.3 VGGNet

VGGNet 采用多个 3×3 卷积核堆叠，提高模型的深度，同时保持较好的效果。

3.4 ResNet

ResNet 提出了残差连接（Residual Connection），解决了深度网络中的梯度消失问题，使得 CNN 可以训练更深的网络。

import torch
import torch.nn as nn

class ResidualBlock(nn.Module):
    def __init__(self, in_channels, out_channels):
        super(ResidualBlock, self).__init__()
        self.conv1 = nn.Conv2d(in_channels, out_channels, kernel_size=3, padding=1)
        self.bn1 = nn.BatchNorm2d(out_channels)
        self.relu = nn.ReLU(inplace=True)
        self.conv2 = nn.Conv2d(out_channels, out_channels, kernel_size=3, padding=1)
        self.bn2 = nn.BatchNorm2d(out_channels)
    
    def forward(self, x):
        residual = x
        out = self.conv1(x)
        out = self.bn1(out)
        out = self.relu(out)
        out = self.conv2(out)
        out = self.bn2(out)
        out += residual  # 残差连接
        out = self.relu(out)
        return out

# 测试残差块
res_block = ResidualBlock(64, 64)
print(res_block)

3.5 DenseNet

DenseNet 在 ResNet 的基础上引入了密集连接，使得信息流更加高效，减少梯度消失问题。

4. 现代 CNN 技术：注意力机制与 Transformer

4.1 SE-Net（Squeeze-and-Excitation Networks）

SE-Net 通过通道注意力机制（Channel Attention）提升 CNN 的特征提取能力。

4.2 Vision Transformer（ViT）

虽然 CNN 在计算机视觉中表现优秀，但 Transformer 通过自注意力机制实现了更高效的特征提取。

from torch import nn

class VisionTransformer(nn.Module):
    def __init__(self, embed_dim=768, num_heads=8, num_layers=6):
        super(VisionTransformer, self).__init__()
        self.transformer = nn.Transformer(d_model=embed_dim, nhead=num_heads, num_encoder_layers=num_layers)
    
    def forward(self, x):
        return self.transformer(x)

vit = VisionTransformer()
print(vit)