【第三章:神经网络原理详解与Pytorch入门】02.深度学习框架PyTorch入门-(3)Pytorch实战-优快云博客

本文链接：https://blog.youkuaiyun.com/IT_ORACLE/article/details/149110938

第三章: 神经网络原理详解与Pytorch入门

第二部分：深度学习框架PyTorch入门

第二节：Pytorch主要组成模块

内容：ResNet网络源代码解读，FashionMNIST时装分类

本节基于 PyTorch 的组件，带你拆解经典深度网络架构 ResNet（残差网络） 的实现，并通过 FashionMNIST 数据集完成图像分类任务。

一、ResNet 网络原理简介

ResNet（Residual Network） 由微软提出，用于解决深层神经网络训练中出现的梯度消失和退化问题。

关键思想：残差连接（Residual Connection）

传统网络：
$y = \mathcal{F}(x)$
ResNet：
$y = x + \mathcal{F}(x)$
其中 $x$ 是输入， $\mathcal{F}(x)$ 是残差函数， $x + \mathcal{F}(x)$ 表示“跳跃连接”。

二、ResNet 模块源码简析（以 ResNet18 为例）


import torch
import torch.nn as nn
from torchvision.models.resnet import BasicBlock

class SimpleResNet(nn.Module):
    """
    SimpleResNet是一个简单的ResNet模型实现，用于图像分类任务。
    它继承自torch.nn.Module，并使用了ResNet的基本块结构进行构建。

    参数:
    - block: 使用的ResNet块类型，这里应该是BasicBlock。
    - layers: 一个列表，指定了每个层中ResNet块的数量。
    - num_classes: 整数，指定分类任务的类别数量，默认为10。
    """
    def __init__(self, block, layers, num_classes=10):
        super(SimpleResNet, self).__init__()
        self.in_channels = 64
        # 初始卷积层，将输入的单通道图像转换为64通道
        self.conv1 = nn.Conv2d(1, 64, kernel_size=7, stride=2, padding=3)
        # 批量归一化层，用于加速深度网络的训练
        self.bn1 = nn.BatchNorm2d(64)
        # ReLU激活函数，用于引入非线性性
        self.relu = nn.ReLU(inplace=True)

        # 构建ResNet的层
        self.layer1 = self._make_layer(block, 64, layers[0])
        self.layer2 = self._make_layer(block, 128, layers[1], stride=2)
        self.layer3 = self._make_layer(block, 256, layers[2], stride=2)
        self.layer4 = self._make_layer(block, 512, layers[3], stride=2)
        # 自适应平均池化层，将特征图大小转换为1x1
        self.avgpool = nn.AdaptiveAvgPool2d((1, 1))
        # 全连接层，用于分类
        self.fc = nn.Linear(128, num_classes)

    def _make_layer(self, block, out_channels, blocks, stride=1):
        """
        构建ResNet的一个层，包含多个ResNet块。

        参数:
        - block: ResNet块的类型。
        - out_channels: 输出通道的数量。
        - blocks: 该层中ResNet块的数量。
        - stride: 卷积步长，默认为1。

        返回:
        - nn.Sequential对象，包含多个ResNet块。
        """
        layers = []
        # 添加 downsample 层来调整残差分支的尺寸（通道数 & 空间尺寸）
        downsample = None
        if stride != 1 or self.in_channels != out_channels:
            downsample = nn.Sequential(
                nn.Conv2d(self.in_channels, out_channels, kernel_size=1, stride=stride),
                nn.BatchNorm2d(out_channels)
            )

        # 将 downsample 传入第一个 BasicBlock
        layers = [block(self.in_channels, out_channels, stride, downsample)]

        self.in_channels = out_channels
        # 其余的块保持通道数不变
        for _ in range(1, blocks):
            layers.append(block(out_channels, out_channels))
        return nn.Sequential(*layers)

    def forward(self, x):
        """
        网络的前向传播函数。

        参数:
        - x: 输入张量。

        返回:
        - x: 经过网络变换后的张量。
        """
        x = self.relu(self.bn1(self.conv1(x)))
        x = self.layer1(x)
        x = self.layer2(x)
        x = self.avgpool(x)
        x = torch.flatten(x, 1)
        x = self.fc(x)
        return x

使用方式：

model = SimpleResNet(BasicBlock, [2, 2])  # 模拟 ResNet18 前两层

三、FashionMNIST 时装分类实战（使用 ResNet）

1. 数据准备

# 导入必要的库
from torchvision import datasets, transforms
from torch.utils.data import DataLoader

# 定义数据预处理变换
# 1. 将图像大小调整为224x224像素
# 2. 将图像转换为Tensor格式
# 3. 将单通道图像转换为三通道
transform = transforms.Compose([
    transforms.Resize(224),
    transforms.ToTensor(),
    transforms.Grayscale(num_output_channels=3),
])

# 下载并加载FashionMNIST训练数据集
# 数据集将应用上述定义的变换
train_data = datasets.FashionMNIST(root='data', train=True, download=True, transform=transform)

# 下载并加载FashionMNIST测试数据集
# 数据集同样应用上述定义的变换
test_data = datasets.FashionMNIST(root='data', train=False, download=True, transform=transform)

# 创建训练数据集的DataLoader
# batch_size定义了每次加载的样本数量
# shuffle=True表示在每个epoch中数据会被打乱
train_loader = DataLoader(train_data, batch_size=64, shuffle=True)

# 创建测试数据集的DataLoader
# 测试数据加载不需要打乱顺序
test_loader = DataLoader(test_data, batch_size=64)

2. 训练流程

import torch.optim as optim

# 根据设备可用性选择使用CUDA或CPU
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

# 实例化一个简单的残差网络模型，并将其移动到选定的设备上
model = SimpleResNet(BasicBlock, [2, 2]).to(device)

# 定义损失函数为交叉熵损失
criterion = nn.CrossEntropyLoss()

# 使用Adam优化算法，学习率为0.001
optimizer = optim.Adam(model.parameters(), lr=0.001)

# 进行5轮训练
for epoch in range(5):
    # 将模型设置为训练模式
    model.train()
    # 遍历训练数据集
    for images, labels in train_loader:
        # 将图像和标签移动到选定的设备上
        images, labels = images.to(device), labels.to(device)

        # 清除之前的梯度
        optimizer.zero_grad()
        # 前向传播
        outputs = model(images)
        # 计算损失
        loss = criterion(outputs, labels)
        # 反向传播
        loss.backward()
        # 更新权重
        optimizer.step()
    # 打印完成的轮次信息
    print(f"Epoch {epoch+1} done.")

3. 测试与评估

# 初始化正确预测的样本数为0
correct = 0
# 初始化总样本数为0
total = 0

# 将模型设置为评估模式，以便在推理期间关闭dropout等
model.eval()

# 在测试集上进行推理时不计算梯度，以节省内存和计算资源
with torch.no_grad():
    # 遍历测试数据加载器中的所有批次
    for images, labels in test_loader:
        # 将图像和标签移动到指定设备（CPU或GPU）
        images, labels = images.to(device), labels.to(device)
        # 将图像输入模型以获取输出
        outputs = model(images)
        # 获取每个样本的最高预测类别
        _, preds = torch.max(outputs.data, 1)
        # 统计预测正确的样本数量并累加到correct变量中
        correct += (preds == labels).sum().item()
        # 统计当前批次的样本数量并累加到total变量中
        total += labels.size(0)

# 打印测试集上的准确率
print(f"Accuracy: {correct / total * 100:.2f}%")

四、总结

模块	功能说明
ResNet Block	引入跳跃连接以减轻梯度消失，提升深层训练效果
FashionMNIST	常用于图像分类模型入门和对比测试
训练流程	包括前向传播、损失计算、反向传播与优化器更新
准确率评估	使用 `torch.max` 获取预测标签并与真实标签比较