第P4周：猴痘病识别

最新推荐文章于 2025-12-01 17:33:31 发布

原创最新推荐文章于 2025-12-01 17:33:31 发布 · 2k 阅读

45 ·

CC 4.0 BY-SA版权

文章标签：

#pytorch #人工智能 #cnn #神经网络 #机器学习

机器学习365学习专栏收录该内容

17 篇文章

订阅专栏

部署运行你感兴趣的模型镜像

文章目录

FROM
1. 准备知识
1.1 检查环境
1.2 数据导入
1.3 划分数据集

2. 构建简单的CNN网络
3. 模型训练
3.1 设置超参数
3.2 训练函数
3.3 测试函数
3.4 训练

4. 结果可视化
4.1 Loss与Accuracy图
4.2 指定图片进行预测

5. 保存并加载模型
6.课后
6.1 要求
6.1.1 训练过程中保存效果最好的模型参数
6.1.2 加载最佳模型参数识别本地的一张图片
6.1.3 调整网络结构使测试集accuracy到达88%（重点）

6.2 拔高
6.2.1 调整网络结构使测试集accuracy到达90%（见6.1.3）

FROM

🍨 本文为🔗365天深度学习训练营中的学习记录博客
🍖 原作者：K同学啊

我的环境

语言环境：Python 3.8.10
开发工具：Jupyter Lab
深度学习环境：
- torch==1.12.1+cu113
- torchvision==0.13.1+cu113

1. 准备知识

1.1 检查环境

import torch  # 导入PyTorch库，用于构建深度学习模型
import torch.nn as nn  # 导入torch.nn模块，包含构建神经网络所需的类和函数
import matplotlib.pyplot as plt  # 导入matplotlib.pyplot模块，用于数据可视化
import torchvision  # 导入torchvision库，包含处理图像和视频的工具和预训练模型

# 设置硬件设备，如果有GPU则使用，没有则使用cpu
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")  # 检查系统是否有可用的GPU，如果有则使用GPU，否则使用CPU
print(torch.__version__)  # 输出torch版本
device  # 打印当前设备，以确认是使用GPU还是CPU

输出：
在这里插入图片描述

1.2 数据导入

导入本地数据

# 导入必要的库
import os, PIL, random, pathlib

# 设置数据目录路径
data_dir = './data/'
data_dir = pathlib.Path(data_dir)

# 获取数据目录下的所有文件路径
data_paths = list(data_dir.glob('*'))

# 提取每个文件路径中的类别名称
# 假设文件路径的结构是：'./data/类别名称/文件名'
# 这里使用列表推导式来创建类别名称的列表
classeNames = [str(path).split("/")[1] for path in data_paths if path.is_dir()]

# 输出类别名称列表
print(classeNames)

输出：
在这里插入图片描述

# 设置数据目录路径
total_datadir = './data/'

# 导入torchvision.transforms模块
from torchvision import transforms
from torchvision.datasets import ImageFolder
from torchvision import datasets

# 定义训练时的图像变换操作
train_transforms = transforms.Compose([
    transforms.Resize([224, 224]),  # 将输入图片resize成统一尺寸
    transforms.ToTensor(),          # 将PIL Image或numpy.ndarray转换为tensor，并归一化到[0,1]之间
    transforms.Normalize(           # 标准化处理-->转换为标准正太分布（高斯分布），使模型更容易收敛
        mean=[0.485, 0.456, 0.406], 
        std=[0.229, 0.224, 0.225])   # 其中mean和std是从数据集中随机抽样计算得到的。
])

# 使用ImageFolder类加载数据，并应用上面定义的图像变换
total_data = datasets.ImageFolder(root=total_datadir, transform=train_transforms)
total_data

输出：
在这里插入图片描述

# 使用ImageFolder类加载数据时，每个类别会被自动分配一个索引
# class_to_idx属性是一个字典，它将类别名称映射到对应的索引
class_to_idx = total_data.class_to_idx

# 输出class_to_idx字典
print(class_to_idx)

输出：
在这里插入图片描述

1.3 划分数据集


# 计算训练集大小，占总数据集的80%
train_size = int(0.8 * len(total_data))

# 计算测试集大小，即总数据集减去训练集大小
test_size = len(total_data) - train_size

# 使用random_split方法将数据集随机分割为训练集和测试集
train_dataset, test_dataset = torch.utils.data.random_split(total_data, [train_size, test_size])

# 输出训练集和测试集的大小
print(f"Training set size: {len(train_dataset)}")
print(f"Test set size: {len(test_dataset)}")
train_dataset, test_dataset

输出：
在这里插入图片描述

# 设置批量大小
batch_size = 32

# 创建训练数据加载器
train_dl = torch.utils.data.DataLoader(train_dataset,
                                       batch_size=batch_size,
                                       shuffle=True,
                                       num_workers=1)

# 创建测试数据加载器
test_dl = torch.utils.data.DataLoader(test_dataset,
                                       batch_size=batch_size,
                                       shuffle=True,
                                       num_workers=1)

# 遍历测试数据加载器，打印第一个批次的输入和标签的形状
for X, y in test_dl:
    print("Shape of X [N, C, H, W]: ", X.shape)
    print("Shape of y: ", y.shape, y.dtype)
    break

输出：
在这里插入图片描述

2. 构建简单的CNN网络

卷积神经网络（CNN）是一种深度学习模型，广泛应用于图像识别、分类和分割等任务。下面是一些主要组件的详细说明：

torch.nn.Conv2d()详解
torch.nn.Conv2d是 PyTorch 中定义二维卷积层的类。以下是它的参数的详细解释：

torch.nn.Conv2d(
   in_channels: int, 输入数据的通道数。例如，对于RGB图像，in_channels 通常是3。
   out_channels: int, 输出数据的通道数。这通常决定了卷积层输出的特征图的数量。
   kernel_size: int or tuple, 卷积核的大小。可以是单个整数（表示卷积核的高度和宽度相同），也可以是元组 (H, W) 指定高度和宽度。
   stride: int or tuple = 1, 卷积的步长。可以是单个整数（表示高度和宽度的步长相同），也可以是元组 (H, W) 指定不同的步长。
   padding: int or tuple or str = 0, 填充的大小。可以是单个整数（表示在高度和宽度方向上添加相同数量的填充），可以是元组 (H, W) 指定不同的填充，也可以是字符串（如 'same' 或 'valid'），这取决于 padding_mode 参数。
   dilation: int or tuple = 1, 卷积的空洞率。可以是单个整数（表示高度和宽度的空洞率相同），也可以是元组 (H, W) 指定不同的空洞率。
   groups: int = 1, 分组卷积的数量。分组卷积可以减少模型的参数数量和计算量。
   bias: bool = True, 布尔值，指示卷积层是否包含偏置项。
   padding_mode: str = 'zeros', 填充模式，可以是 'zeros'、'reflect'、'replicate' 或 'circular'。
   device: torch.device = None, 指定设备对象，卷积层的参数将被初始化在该设备上。
   dtype: torch.dtype = None 指定数据类型对象，卷积层的参数将被初始化为该数据类型。
   )

作用：用于提取图像的特征。通过学习图像中局部区域的特征，卷积层可以捕捉到图像的局部特征。

torch.nn.Linear()详解
torch.nn.Linear 是 PyTorch 中定义全连接层（也称为线性层或稠密层）的类。以下是它的参数的详细解释：

torch.nn.Linear(
    in_features: int, 输入数据的特征数量。这是全连接层输入的每个样本的特征数。
    out_features: int, 输出数据的特征数量。这是全连接层输出的每个样本的特征数，也称为神经元的数量。
    bias: bool = True, 布尔值，指示全连接层是否包含偏置项。如果设置为 True，则层中将包含偏置项；如果设置为 False，则不包含。
    device: torch.device = None, 指定设备对象，全连接层的参数将被初始化在该设备上。如果为 None，则参数将被初始化在 CPU 上。
    dtype: torch.dtype = None 指定数据类型对象，全连接层的参数将被初始化为该数据类型。如果为 None，则参数将被初始化为默认的数据类型（通常是 torch.float32）。
)

作用：在CNN中，全连接层通常用于最终的分类或回归任务。在特征提取的最后阶段，全连接层将学习到的高级特征映射到最终的输出类别。

torch.nn.MaxPool2d()详解
torch.nn.MaxPool2d 是 PyTorch 中定义二维最大池化层的类。最大池化层用于对输入特征图进行下采样，通过滑动窗口中的最大值来降低特征图的空间维度，同时保留最重要的信息。以下是它的参数的详细解释：

torch.nn.MaxPool2d(
    kernel_size: int or tuple, 池化窗口的大小。可以是单个整数（表示高度和宽度的窗口大小相同），也可以是元组 (H, W) 指定高度和宽度的窗口大小。
    stride: int or tuple = None, 池化的步长。可以是单个整数（表示高度和宽度的步长相同），也可以是元组 (H, W) 指定不同的步长。如果设置为 None，则默认等于 kernel_size。
    padding: int or tuple = 0, 填充的大小。可以是单个整数（表示在高度和宽度方向上添加相同数量的填充），也可以是元组 (H, W) 指定不同的填充。
    dilation: int = 1, 池化窗口的空洞率。可以是单个整数（表示高度和宽度的空洞率相同），也可以是元组 (H, W) 指定不同的空洞率。空洞池化可以增加池化窗口的有效感受野而不增加计算量。
    return_indices: bool = False, 布尔值，指示是否返回最大值的索引。如果设置为 True，则返回每个输出元素的最大值的索引。
    ceil_mode: bool = False 布尔值，指示是否使用天花板函数来计算输出大小。如果设置为 True，则输出大小将向上取整。
)

作用：最大池化层是卷积神经网络中常用的结构，它有助于减少特征图的维度，从而减少模型的参数数量和计算量，同时能够保持特征的重要信息。

# 导入PyTorch中的功能函数模块
import torch.nn.functional as F

# 定义一个继承自nn.Module的类Network_bn，表示一个卷积神经网络
class Network_bn(nn.Module):
    # 初始化方法
    def __init__(self):
        # 调用父类nn.Module的初始化方法
        super(Network_bn, self).__init__()
        
        # 定义第一个卷积层conv1，输入通道数为3（RGB图像），输出通道数为12，卷积核大小为5x5
        self.conv1 = nn.Conv2d(in_channels=3, out_channels=12, kernel_size=5, stride=1, padding=0)
        # 定义第一个批量归一化层bn1，与conv1的输出通道数相同
        self.bn1 = nn.BatchNorm2d(12)
        
        # 定义第二个卷积层conv2，输入和输出通道数均为12
        self.conv2 = nn.Conv2d(in_channels=12, out_channels=12, kernel_size=5, stride=1, padding=0)
        # 定义第二个批量归一化层bn2
        self.bn2 = nn.BatchNorm2d(12)
        
        # 定义第一个最大池化层pool1，池化窗口大小为2x2，步长为2
        self.pool1 = nn.MaxPool2d(2,2)
        
        # 定义第三个卷积层conv4，输入通道数为12，输出通道数为24
        self.conv4 = nn.Conv2d(in_channels=12, out_channels=24, kernel_size=5, stride=1, padding=0)
        # 定义第三个批量归一化层bn4
        self.bn4 = nn.BatchNorm2d(24)
        
        # 定义第四个卷积层conv5，输入和输出通道数均为24
        self.conv5 = nn.Conv2d(in_channels=24, out_channels=24, kernel_size=5, stride=1, padding=0)
        # 定义第四个批量归一化层bn5
        self.bn5 = nn.BatchNorm2d(24)
        
        # 定义第二个最大池化层pool2
        self.pool2 = nn.MaxPool2d(2,2)
        
        # 定义一个全连接层fc1，输入特征数为24*50*50（假设池化后的特征图大小为50x50），输出特征数为类别数len(classeNames)
        self.fc1 = nn.Linear(24*50*50, len(classeNames))

    # 前向传播方法
    def forward(self, x):
        # 通过卷积层、批量归一化层和ReLU激活函数
        x = F.relu(self.bn1(self.conv1(x)))      
        x = F.relu(self.bn2(self.conv2(x)))     
        # 通过最大池化层
        x = self.pool1(x)                        
        x = F.relu(self.bn4(self.conv4(x)))     
        x = F.relu(self.bn5(self.conv5(x)))  
        # 再次通过最大池化层
        x = self.pool2(x)                        
        # 调整张量形状以匹配全连接层的输入要求
        x = x.view(-1, 24*50*50)
        # 通过全连接层
        x = self.fc1(x)

        # 返回网络的输出
        return x

# 检测是否有可用的GPU，如果有则使用GPU，否则使用CPU
device = "cuda" if torch.cuda.is_available() else "cpu"
# 打印使用的设备
print("Using {} device".format(device))

# 实例化网络并将它发送到指定的设备（GPU或CPU）
model = Network_bn().to(device)
# 打印模型
model

输出：
在这里插入图片描述

3. 模型训练

3.1 设置超参数

loss_fn    = nn.CrossEntropyLoss() # 创建损失函数
learn_rate = 1e-4 # 学习率
opt        = torch.optim.SGD(model.parameters(),lr=learn_rate)

3.2 训练函数

# 训练循环
def train(dataloader, model, loss_fn, optimizer):
    size = len(dataloader.dataset)  # 获取数据加载器中的样本总数，例如MNIST数据集有60000张图片
    num_batches = len(dataloader)   # 计算数据加载器中的批次数量，例如60000张图片，每批次32张，共有1875个批次

    train_loss, train_acc = 0, 0  # 初始化累计训练损失和准确率

    # 遍历数据加载器中的所有批次
    for X, y in dataloader:
        X, y = X.to(device), y.to(device)  # 将特征和标签转移到GPU或CPU

        # 前向传播
        pred = model(X)  # 使用模型进行预测
        loss = loss_fn(pred, y)  # 计算预测和真实标签之间的损失

        # 反向传播和优化
        optimizer.zero_grad()  # 清零模型参数的梯度
        loss.backward()        # 反向传播，计算梯度
        optimizer.step()       # 根据梯度更新模型参数

        # 记录准确率和损失
        train_acc += (pred.argmax(1) == y).type(torch.float).sum().item()  # 计算预测正确的样本数量
        train_loss += loss.item()  # 累加损失值

    # 计算平均准确率和平均损失
    train_acc /= size  # 将累计准确率除以样本总数，得到平均准确率
    train_loss /= num_batches  # 将累计损失除以批次数量，得到平均损失

    return train_acc, train_loss  # 返回训练过程中的平均准确率和平均损失

3.3 测试函数

这个 test函数接收三个参数：dataloader、model 和 loss_fn。
它遍历 dataloader 中的所有批次，对每个批次执行前向传播和损失计算，但不进行反向传播或参数更新，因为测试阶段的目的是评估模型性能，而不是训练模型。
在每个批次中，它计算模型的预测值 target_pred，然后使用损失函数 loss_fn 计算预测值和真实标签 target 之间的损失 loss。
函数还记录了整个测试集上的平均准确率和平均损失。

def test(dataloader, model, loss_fn):
    size = len(dataloader.dataset)  # 获取测试数据集中的样本总数，例如CIFAR-10数据集有10000张图片
    num_batches = len(dataloader)  # 计算测试数据加载器中的批次数量

    test_loss, test_acc = 0, 0  # 初始化累计测试损失和准确率

    # 使用torch.no_grad()上下文管理器，停止梯度计算，因为在测试阶段不需要更新模型参数
    with torch.no_grad():
        for imgs, target in dataloader:
            imgs, target = imgs.to(device), target.to(device)  # 将图像和标签转移到GPU或CPU

            # 前向传播，获取模型的预测输出
            target_pred = model(imgs)
            # 计算模型预测输出和真实标签之间的损失
            loss = loss_fn(target_pred, target)

            # 累加损失和准确率
            test_loss += loss.item()
            test_acc += (target_pred.argmax(1) == target).type(torch.float).sum().item()

    # 计算平均准确率和平均损失
    test_acc /= size  # 将累计准确率除以样本总数，得到平均准确率
    test_loss /= num_batches  # 将累计损失除以批次数量，得到平均损失

    return test_acc, test_loss  # 返回测试过程中的平均准确率和平均损失

3.4 训练

# 定义训练的总轮数（epochs）
epochs     = 20

# 初始化空列表用于存储训练和测试过程中的准确率和损失值
train_loss = []
train_acc  = []
test_loss  = []
test_acc   = []

# 开始训练循环，epochs次迭代
for epoch in range(epochs):
    # 将模型设置为训练模式
    model.train()
    # 训练模型一个epoch，并返回该epoch的训练准确率和损失值
    epoch_train_acc, epoch_train_loss = train(train_dl, model, loss_fn, opt)
    
    # 将模型设置为评估模式
    model.eval()
    # 评估模型一个epoch，并返回该epoch的测试准确率和损失值
    epoch_test_acc, epoch_test_loss = test(test_dl, model, loss_fn)
    
    # 将计算得到的准确率和损失值添加到对应的列表中
    train_acc.append(epoch_train_acc)
    train_loss.append(epoch_train_loss)
    test_acc.append(epoch_test_acc)
    test_loss.append(epoch_test_loss)
    
    # 定义一个字符串模板，用于格式化打印每个epoch的结果
    template = ('Epoch:{:2d}, Train_acc:{:.1f}%, Train_loss:{:.3f}, Test_acc:{:.1f}%，Test_loss:{:.3f}')
    # 打印当前epoch的编号、训练准确率、训练损失、测试准确率和测试损失
    print(template.format(epoch+1, epoch_train_acc*100, epoch_train_loss, epoch_test_acc*100, epoch_test_loss))
    
# 训练完成后打印“Done”
print('Done')

输出：
在这里插入图片描述

4. 结果可视化

4.1 Loss与Accuracy图

import matplotlib.pyplot as plt  # 导入matplotlib的pyplot模块，用于数据可视化
import warnings  # 导入警告模块
warnings.filterwarnings("ignore")  # 忽略警告信息，避免绘图时出现警告提示

# 设置matplotlib的配置参数
# plt.rcParams['font.sans-serif'] = ['SimHei']  # 设置中文字体，使得图表可以正常显示中文
plt.rcParams['axes.unicode_minus'] = False  # 设置正常显示负号
plt.rcParams['figure.dpi'] = 100  # 设置图像的分辨率

epochs_range = range(epochs)  # 创建一个从0到epochs-1的范围，用于x轴的刻度

# 设置图像大小
plt.figure(figsize=(12, 3))
# 创建一个1行2列的子图布局，并定位到第1个子图
plt.subplot(1, 2, 1)

# 在第1个子图上绘制训练和测试的准确率曲线
plt.plot(epochs_range, train_acc, label='Training Accuracy')  # 绘制训练准确率
plt.plot(epochs_range, test_acc, label='Test Accuracy')  # 绘制测试准确率
plt.legend(loc='lower right')  # 添加图例，位置在右下角
plt.title('Training and Validation Accuracy')  # 设置子图的标题

# 创建一个1行2列的子图布局，并定位到第2个子图
plt.subplot(1, 2, 2)
# 在第2个子图上绘制训练和测试的损失曲线
plt.plot(epochs_range, train_loss, label='Training Loss')  # 绘制训练损失
plt.plot(epochs_range, test_loss, label='Test Loss')  # 绘制测试损失
plt.legend(loc='upper right')  # 添加图例，位置在右上角
plt.title('Training and Validation Loss')  # 设置子图的标题

# 显示绘制的图像
plt.show()

输出：
在这里插入图片描述

4.2 指定图片进行预测

from PIL import Image

# 假设total_data是一个已经定义好的数据集对象，它有一个class_to_idx属性，该属性是一个字典，将类别名称映射到一个唯一的索引
classes = list(total_data.class_to_idx)

# 定义一个函数，用于预测单张图片的类别
def predict_one_image(image_path, model, transform, classes):
    # 使用PIL库打开图片文件，并将其转换为RGB模式
    test_img = Image.open(image_path).convert('RGB')
    # plt.imshow(test_img)  # 这行代码被注释掉了，如果取消注释，可以用来展示预测的图片

    # 对图片应用预处理转换
    test_img = transform(test_img)
    # 将处理后的图片转换为模型输入需要的格式，并增加一个批次维度
    img = test_img.to(device).unsqueeze(0)
    
    # 将模型设置为评估模式
    model.eval()
    # 通过模型进行前向传播，得到输出
    output = model(img)

    # 获取模型输出中概率最大的类别索引
    _, pred = torch.max(output, 1)
    # 根据索引从classes列表中获取对应的类别名称
    pred_class = classes[pred]
    # 打印预测结果
    print(f'预测结果是：{pred_class}')

# 调用predict_one_image函数，传入以下参数：
predict_one_image(
    # 指定要预测的图片路径
    image_path='./data/Monkeypox/M01_01_00.jpg', 
    # 传入预训练的模型对象
    model=model, 
    # 传入用于训练时的图片预处理转换函数
    transform=train_transforms, 
    # 传入类别名称列表
    classes=classes
)

输出：
在这里插入图片描述

5. 保存并加载模型

# 模型保存
PATH = './model/model.pth'  # 保存的参数文件名
torch.save(model.state_dict(), PATH)

# 将参数加载到model当中
model.load_state_dict(torch.load(PATH, map_location=device))

输出：
在这里插入图片描述

6.课后

6.1 要求

训练过程中保存效果最好的模型参数。
加载最佳模型参数识别本地的一张图片。
调整网络结构使测试集accuracy到达88%（重点）。

6.1.1 训练过程中保存效果最好的模型参数

修改代码：

import os
import torch
import copy
from datetime import datetime

# 定义训练的总轮数（epochs）
epochs     = 20

# 初始化空列表用于存储训练和测试过程中的准确率和损失值
train_loss = []
train_acc  = []
test_loss  = []
test_acc   = []

# 初始化最佳准确率和对应的模型参数
best_acc = 0.0
best_model_params = None

# 定义模型保存的根目录
model_root_dir = './model'

# 开始训练循环，epochs次迭代
for epoch in range(epochs):
    # 将模型设置为训练模式
    model.train()
    # 训练模型一个epoch，并返回该epoch的训练准确率和损失值
    epoch_train_acc, epoch_train_loss = train(train_dl, model, loss_fn, opt)
    
    # 将模型设置为评估模式
    model.eval()
    # 评估模型一个epoch，并返回该epoch的测试准确率和损失值
    epoch_test_acc, epoch_test_loss = test(test_dl, model, loss_fn)
    
    # 将计算得到的准确率和损失值添加到对应的列表中
    train_acc.append(epoch_train_acc)
    train_loss.append(epoch_train_loss)
    test_acc.append(epoch_test_acc)
    test_loss.append(epoch_test_loss)
    
    # 定义一个字符串模板，用于格式化打印每个epoch的结果
    template = ('Epoch:{:2d}, Train_acc:{:.1f}%, Train_loss:{:.3f}, Test_acc:{:.1f}%, Test_loss:{:.3f}')
    # 打印当前epoch的编号、训练准确率、训练损失、测试准确率和测试损失
    print(template.format(epoch+1, epoch_train_acc*100, epoch_train_loss, epoch_test_acc*100, epoch_test_loss))
    
    # 检查是否是最佳准确率，如果是，则保存模型参数
    if epoch_test_acc > best_acc:
        best_acc = epoch_test_acc
        best_model_params = copy.deepcopy(model.state_dict())

# 训练完成后打印“Done”
print('Done')

# 创建一个带有时间戳的文件夹用来保存每次训练的最好模型
timestamp = datetime.now().strftime('%Y%m%d_%H%M%S')
model_dir = os.path.join(model_root_dir, timestamp)
os.makedirs(model_dir, exist_ok=True)

# 保存最佳模型参数
torch.save(best_model_params, os.path.join(model_dir, 'best_model_params.pth'))
print('best_model_params.pth 已保存在：' + model_dir)

输出：
在这里插入图片描述

6.1.2 加载最佳模型参数识别本地的一张图片

PATH = './model/20241101_171431/best_model_params.pth'  # 保存的参数文件名

# 将参数加载到model当中
model.load_state_dict(torch.load(PATH, map_location=device))
# 调用predict_one_image函数，传入以下参数：
predict_one_image(
    # 指定要预测的图片路径
    image_path='./data/Others/NM01_01_00.jpg', 
    # 传入预训练的模型对象
    model=model, 
    # 传入用于训练时的图片预处理转换函数
    transform=train_transforms, 
    # 传入类别名称列表
    classes=classes
)

输出：
在这里插入图片描述

6.1.3 调整网络结构使测试集accuracy到达88%（重点）

修改网络结构：

# 导入PyTorch中的功能函数模块
import torch.nn.functional as F

class Network_bn(nn.Module):
    def __init__(self):
        super(Network_bn, self).__init__()
        
        self.conv1 = nn.Conv2d(3, 12, 5, padding=2)  # 增加padding保持图像尺寸
        self.bn1 = nn.BatchNorm2d(12)
        self.conv2 = nn.Conv2d(12, 12, 5, padding=2)
        self.bn2 = nn.BatchNorm2d(12)
        self.pool1 = nn.MaxPool2d(2, 2)
        
        self.conv3 = nn.Conv2d(12, 24, 3, padding=1)  # 增加一个卷积层
        self.bn3 = nn.BatchNorm2d(24)
        self.conv4 = nn.Conv2d(24, 24, 3, padding=1)  # 增加一个卷积层
        self.bn4 = nn.BatchNorm2d(24)
        self.pool2 = nn.MaxPool2d(2, 2)
        
        self.fc1 = nn.Linear(24*56*56, len(classeNames))  # 根据池化后的尺寸调整输入特征数
        
    def forward(self, x):
        x = F.relu(self.bn1(self.conv1(x)))
        x = F.relu(self.bn2(self.conv2(x)))
        x = self.pool1(x)
        x = F.relu(self.bn3(self.conv3(x)))  # 新增卷积层
        x = F.relu(self.bn4(self.conv4(x)))  # 新增卷积层
        x = self.pool2(x)
        x = x.view(-1, 24*56*56)
        x = self.fc1(x)
        return x

# 检测是否有可用的GPU，如果有则使用GPU，否则使用CPU
device = "cuda" if torch.cuda.is_available() else "cpu"
# 打印使用的设备
print("Using {} device".format(device))

# 实例化网络并将它发送到指定的设备（GPU或CPU）
model = Network_bn().to(device)
# 打印模型
model

使用Adam优化器：

loss_fn    = nn.CrossEntropyLoss() # 创建损失函数
learn_rate = 1e-4 # 学习率
opt        = torch.optim.Adam(model.parameters(),lr=learn_rate)

输出：
在这里插入图片描述

6.2 拔高

6.2.1 调整网络结构使测试集accuracy到达90%（见6.1.3）

测试集accuracy到达90%。

您可能感兴趣的与本文相关的镜像

PyTorch 2.5

PyTorch

Cuda

PyTorch 是一个开源的 Python 机器学习库，基于 Torch 库，底层由 C++ 实现，应用于人工智能领域，如计算机视觉和自然语言处理