第P8周：YOLOv5-C3模块实现

原创于 2024-11-25 09:54:03 发布 · 933 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#YOLO #pytorch #人工智能 #神经网络

机器学习365学习专栏收录该内容

17 篇文章

订阅专栏

部署运行你感兴趣的模型镜像

文章目录

FROM
1. 准备知识
1.1 检查环境
1.2 数据导入
1.3 划分数据集

2. 搭建包含C3模块的模型
3. 模型训练
3.1 训练函数
3.2 测试函数
3.3 训练并保存效果最佳的模型

4. 结果可视化
4.1 Loss与Accuracy图
4.2 模型评估

FROM

🍨 本文为🔗365天深度学习训练营中的学习记录博客
🍖 原作者：K同学啊

我的环境

语言环境：Python 3.11.9
开发工具：Jupyter Lab
深度学习环境：
- torch==2.3.1+cu121
- torchvision==0.18.1+cu121

1. 准备知识

1.1 检查环境

# 导入PyTorch库
import torch
# 导入PyTorch的神经网络模块
import torch.nn as nn
# 导入torchvision中的transforms模块，用于图像预处理
import torchvision.transforms as transforms
# 导入整个torchvision库
import torchvision
# 从torchvision库中导入transforms和datasets模块
from torchvision import transforms, datasets
# 导入操作系统接口库os，图像处理库PIL，路径操作库pathlib，以及警告控制库warnings
import os, PIL, pathlib, warnings

# 设置硬件设备，如果有GPU则使用，没有则使用cpu
# torch.device()函数用于指定设备，"cuda"表示GPU，"cpu"表示CPU
# torch.cuda.is_available()函数用于检查系统是否有可用的GPU
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
# 打印当前PyTorch版本
print(torch.__version__)
# 打印当前设备，以确认是使用GPU还是CPU
device

输出：
在这里插入图片描述

1.2 数据导入

导入本地数据

# 导入所需的模块
import os, PIL, random, pathlib

# 设置数据目录的路径
data_dir = './data/'
# 将字符串路径转换为Path对象，便于进行路径操作
data_dir = pathlib.Path(data_dir)

# 使用glob方法获取data_dir下的所有文件和文件夹的路径，并存储在列表data_paths中
data_paths = list(data_dir.glob('*'))

# 通过列表推导式，从data_paths列表中的每个路径字符串中提取出类别名称
# 假设路径的结构是 './data/类别名称/文件名'，这里通过split("/")分割路径，并取第二个元素作为类别名称
classeNames = [str(path).split("/")[1] for path in data_paths]

# 输出类别名称列表
classeNames

输出：
在这里插入图片描述

# 导入torchvision.transforms模块中的transforms
from torchvision import transforms

# 定义训练数据的变换操作
# 这些操作将被应用于训练数据集中的图像，以增强模型的泛化能力
train_transforms = transforms.Compose([
    # Resize图像到统一的尺寸[224, 224]，这通常是模型输入所需的尺寸
    transforms.Resize([224, 224]),
    # ToTensor将PIL Image或numpy.ndarray转换为tensor，并归一化到[0,1]之间
    transforms.ToTensor(),
    # Normalize进行标准化处理，将数据转换为标准正态分布（高斯分布）
    # 这有助于模型更容易地收敛
    transforms.Normalize(
        mean=[0.485, 0.456, 0.406],  # 均值，用于标准化处理
        std=[0.229, 0.224, 0.225]   # 标准差，用于标准化处理
    )
])

# 定义测试数据的变换操作
# 这些操作将被应用于测试数据集中的图像，以确保与训练时相同的预处理流程
test_transform = transforms.Compose([
    # Resize图像到统一的尺寸[224, 224]
    transforms.Resize([224, 224]),
    # ToTensor将PIL Image或numpy.ndarray转换为tensor，并归一化到[0,1]之间
    transforms.ToTensor(),
    # Normalize进行标准化处理
    transforms.Normalize(
        mean=[0.485, 0.456, 0.406],  # 均值
        std=[0.229, 0.224, 0.225]   # 标准差
    )
])

# 使用datasets.ImageFolder加载图像数据集
# "./PotatoPlants/"是数据集的路径，transform参数指定了数据变换操作
total_data = datasets.ImageFolder("./PotatoPlants/", transform=train_transforms)
total_data

输出：
在这里插入图片描述

# 假设total_data是使用ImageFolder加载的数据集
total_data.class_to_idx

输出：
在这里插入图片描述

1.3 划分数据集

# 计算训练集大小，占总数据集的80%
train_size = int(0.8 * len(total_data))
# 计算测试集大小，即总数据集减去训练集大小
test_size = len(total_data) - train_size
# 使用random_split函数随机分割数据集为训练集和测试集
train_dataset, test_dataset = torch.utils.data.random_split(total_data, [train_size, test_size])

# 设置批处理大小
batch_size = 32

# 创建训练集的DataLoader
train_dl = torch.utils.data.DataLoader(train_dataset,
                                       batch_size=batch_size,
                                       shuffle=True,  # 是否打乱数据
                                       num_workers=1)  # 加载数据的子进程数量
# 创建测试集的DataLoader
test_dl = torch.utils.data.DataLoader(test_dataset,
                                       batch_size=batch_size,
                                       shuffle=True,  # 是否打乱数据
                                       num_workers=1)  # 加载数据的子进程数量

# 遍历测试集的DataLoader
for X, y in test_dl:
    # 打印特征数据X的形状，[N, C, H, W]分别代表批次大小、通道数、高度、宽度
    print("Shape of X [N, C, H, W]: ", X.shape)
    # 打印标签数据y的形状和数据类型
    print("Shape of y: ", y.shape, y.dtype)
    break  # 只打印第一个批次的数据形状和类型

输出：
在这里插入图片描述

2. 搭建包含C3模块的模型

在这里插入图片描述

import torch
import torch.nn as nn
import torch.nn.functional as F

# 自动计算padding值，使得卷积操作后的空间维度保持不变（'same' padding）
def autopad(k, p=None):
    if p is None:
        p = k // 2 if isinstance(k, int) else [x // 2 for x in k]
    return p

# 定义标准卷积模块
class Conv(nn.Module):
    def __init__(self, c1, c2, k=1, s=1, p=None, g=1, act=True):
        super().__init__()
        self.conv = nn.Conv2d(c1, c2, k, s, autopad(k, p), groups=g, bias=False)
        self.bn = nn.BatchNorm2d(c2)
        self.act = nn.SiLU() if act is True else (act if isinstance(act, nn.Module) else nn.Identity())

    def forward(self, x):
        return self.act(self.bn(self.conv(x)))

# 定义标准瓶颈卷积模块（Bottleneck）
class Bottleneck(nn.Module):
    def __init__(self, c1, c2, shortcut=True, g=1, e=0.5):
        super().__init__()
        c_ = int(c2 * e)
        self.cv1 = Conv(c1, c_, 1, 1)
        self.cv2 = Conv(c_, c2, 3, 1, g=g)
        self.add = shortcut and c1 == c2

    def forward(self, x):
        return x + self.cv2(self.cv1(x)) if self.add else self.cv2(self.cv1(x))

# 定义C3模块，包含3个卷积操作的CSP（Cross Stage Partial）瓶颈结构
class C3(nn.Module):
    def __init__(self, c1, c2, n=1, shortcut=True, g=1, e=0.5):
        super().__init__()
        c_ = int(c2 * e)
        self.cv1 = Conv(c1, c_, 1, 1)
        self.cv2 = Conv(c1, c_, 1, 1)
        self.cv3 = Conv(2 * c_, c2, 1)
        self.m = nn.Sequential(*(Bottleneck(c_, c_, shortcut, g, e=1.0) for _ in range(n)))

    def forward(self, x):
        return self.cv3(torch.cat((self.m(self.cv1(x)), self.cv2(x)), dim=1))

# 定义模型K
class model_K(nn.Module):
    def __init__(self):
        super(model_K, self).__init__()
        
        # 卷积模块
        self.Conv = Conv(3, 32, 3, 2)
        
        # C3模块1
        self.C3_1 = C3(32, 64, 3, 2)
        
        # 全连接网络层，用于分类
        self.classifier = nn.Sequential(
            nn.Linear(in_features=802816, out_features=100),
            nn.ReLU(),
            nn.Linear(in_features=100, out_features=4)
        )
        
    def forward(self, x):
        x = self.Conv(x)
        x = self.C3_1(x)
        x = torch.flatten(x, start_dim=1)
        x = self.classifier(x)

        return x

# 检测是否有可用的CUDA设备，如果有则使用GPU，否则使用CPU
device = "cuda" if torch.cuda.is_available() else "cpu"
print("Using {} device".format(device))

# 实例化模型K并将其发送到指定设备
model = model_K().to(device)
model

输出：

model_K(
  (Conv): Conv(
    (conv): Conv2d(3, 32, kernel_size=(3, 3), stride=(2, 2), padding=(1, 1), bias=False)
    (bn): BatchNorm2d(32, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
    (act): SiLU()
  )
  (C3_1): C3(
    (cv1): Conv(
      (conv): Conv2d(32, 32, kernel_size=(1, 1), stride=(1, 1), bias=False)
      (bn): BatchNorm2d(32, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
      (act): SiLU()
    )
    (cv2): Conv(
      (conv): Conv2d(32, 32, kernel_size=(1, 1), stride=(1, 1), bias=False)
      (bn): BatchNorm2d(32, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
      (act): SiLU()
    )
    (cv3): Conv(
      (conv): Conv2d(64, 64, kernel_size=(1, 1), stride=(1, 1), bias=False)
      (bn): BatchNorm2d(64, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
      (act): SiLU()
    )
    (m): Sequential(
      (0): Bottleneck(
        (cv1): Conv(
          (conv): Conv2d(32, 32, kernel_size=(1, 1), stride=(1, 1), bias=False)
          (bn): BatchNorm2d(32, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
          (act): SiLU()
        )
        (cv2): Conv(
          (conv): Conv2d(32, 32, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
          (bn): BatchNorm2d(32, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
          (act): SiLU()
        )
      )
      (1): Bottleneck(
        (cv1): Conv(
          (conv): Conv2d(32, 32, kernel_size=(1, 1), stride=(1, 1), bias=False)
          (bn): BatchNorm2d(32, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
          (act): SiLU()
        )
        (cv2): Conv(
          (conv): Conv2d(32, 32, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
          (bn): BatchNorm2d(32, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
          (act): SiLU()
        )
      )
      (2): Bottleneck(
        (cv1): Conv(
          (conv): Conv2d(32, 32, kernel_size=(1, 1), stride=(1, 1), bias=False)
          (bn): BatchNorm2d(32, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
          (act): SiLU()
        )
        (cv2): Conv(
          (conv): Conv2d(32, 32, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
          (bn): BatchNorm2d(32, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
          (act): SiLU()
        )
      )
    )
  )
  (classifier): Sequential(
    (0): Linear(in_features=802816, out_features=100, bias=True)
    (1): ReLU()
    (2): Linear(in_features=100, out_features=4, bias=True)
  )
)

查看模型详情：

# 统计模型参数量以及其他指标
import torchsummary as summary
summary.summary(model, (3, 224, 224))

输出：

----------------------------------------------------------------
        Layer (type)               Output Shape         Param #
================================================================
            Conv2d-1         [-1, 32, 112, 112]             864
       BatchNorm2d-2         [-1, 32, 112, 112]              64
              SiLU-3         [-1, 32, 112, 112]               0
              Conv-4         [-1, 32, 112, 112]               0
            Conv2d-5         [-1, 32, 112, 112]           1,024
       BatchNorm2d-6         [-1, 32, 112, 112]              64
              SiLU-7         [-1, 32, 112, 112]               0
              Conv-8         [-1, 32, 112, 112]               0
            Conv2d-9         [-1, 32, 112, 112]           1,024
      BatchNorm2d-10         [-1, 32, 112, 112]              64
             SiLU-11         [-1, 32, 112, 112]               0
             Conv-12         [-1, 32, 112, 112]               0
           Conv2d-13         [-1, 32, 112, 112]           9,216
      BatchNorm2d-14         [-1, 32, 112, 112]              64
             SiLU-15         [-1, 32, 112, 112]               0
             Conv-16         [-1, 32, 112, 112]               0
       Bottleneck-17         [-1, 32, 112, 112]               0
           Conv2d-18         [-1, 32, 112, 112]           1,024
      BatchNorm2d-19         [-1, 32, 112, 112]              64
             SiLU-20         [-1, 32, 112, 112]               0
             Conv-21         [-1, 32, 112, 112]               0
           Conv2d-22         [-1, 32, 112, 112]           9,216
      BatchNorm2d-23         [-1, 32, 112, 112]              64
             SiLU-24         [-1, 32, 112, 112]               0
             Conv-25         [-1, 32, 112, 112]               0
       Bottleneck-26         [-1, 32, 112, 112]               0
           Conv2d-27         [-1, 32, 112, 112]           1,024
      BatchNorm2d-28         [-1, 32, 112, 112]              64
             SiLU-29         [-1, 32, 112, 112]               0
             Conv-30         [-1, 32, 112, 112]               0
           Conv2d-31         [-1, 32, 112, 112]           9,216
      BatchNorm2d-32         [-1, 32, 112, 112]              64
             SiLU-33         [-1, 32, 112, 112]               0
             Conv-34         [-1, 32, 112, 112]               0
       Bottleneck-35         [-1, 32, 112, 112]               0
           Conv2d-36         [-1, 32, 112, 112]           1,024
      BatchNorm2d-37         [-1, 32, 112, 112]              64
             SiLU-38         [-1, 32, 112, 112]               0
             Conv-39         [-1, 32, 112, 112]               0
           Conv2d-40         [-1, 64, 112, 112]           4,096
      BatchNorm2d-41         [-1, 64, 112, 112]             128
             SiLU-42         [-1, 64, 112, 112]               0
             Conv-43         [-1, 64, 112, 112]               0
               C3-44         [-1, 64, 112, 112]               0
           Linear-45                  [-1, 100]      80,281,700
             ReLU-46                  [-1, 100]               0
           Linear-47                    [-1, 4]             404
================================================================
Total params: 80,320,536
Trainable params: 80,320,536
Non-trainable params: 0
----------------------------------------------------------------
Input size (MB): 0.57
Forward/backward pass size (MB): 150.06
Params size (MB): 306.40
Estimated Total Size (MB): 457.04
----------------------------------------------------------------

3. 模型训练

3.1 训练函数

# 训练循环
def train(dataloader, model, loss_fn, optimizer):
    size = len(dataloader.dataset)  # 训练集大小
    num_batches = len(dataloader)   # 批次数目, (size/batch_size，向上取整)

    train_loss, train_acc = 0, 0  # 初始化累计训练损失和准确率

    # 遍历数据加载器中的所有批次
    for X, y in dataloader:
        X, y = X.to(device), y.to(device)  # 将特征和标签转移到GPU或CPU

        # 前向传播
        pred = model(X)  # 使用模型进行预测
        loss = loss_fn(pred, y)  # 计算预测和真实标签之间的损失

        # 反向传播和优化
        optimizer.zero_grad()  # 清零模型参数的梯度
        loss.backward()        # 反向传播，计算梯度
        optimizer.step()       # 根据梯度更新模型参数

        # 记录准确率和损失
        train_acc += (pred.argmax(1) == y).type(torch.float).sum().item()  # 计算预测正确的样本数量
        train_loss += loss.item()  # 累加损失值

    # 计算平均准确率和平均损失
    train_acc /= size  # 将累计准确率除以样本总数，得到平均准确率
    train_loss /= num_batches  # 将累计损失除以批次数量，得到平均损失

    return train_acc, train_loss  # 返回训练过程中的平均准确率和平均损失

3.2 测试函数

这个 test函数接收三个参数：dataloader、model 和 loss_fn。
它遍历 dataloader 中的所有批次，对每个批次执行前向传播和损失计算，但不进行反向传播或参数更新，因为测试阶段的目的是评估模型性能，而不是训练模型。
在每个批次中，它计算模型的预测值 target_pred，然后使用损失函数 loss_fn 计算预测值和真实标签 target 之间的损失 loss。
函数还记录了整个测试集上的平均准确率和平均损失。

def test(dataloader, model, loss_fn):
    size = len(dataloader.dataset)  # 获取测试数据集中的样本总数
    num_batches = len(dataloader)  # 计算测试数据加载器中的批次数量

    test_loss, test_acc = 0, 0  # 初始化累计测试损失和准确率

    # 使用torch.no_grad()上下文管理器，停止梯度计算，因为在测试阶段不需要更新模型参数
    with torch.no_grad():
        for imgs, target in dataloader:
            imgs, target = imgs.to(device), target.to(device)  # 将图像和标签转移到GPU或CPU

            # 前向传播，获取模型的预测输出
            target_pred = model(imgs)
            # 计算模型预测输出和真实标签之间的损失
            loss = loss_fn(target_pred, target)

            # 累加损失和准确率
            test_loss += loss.item()
            test_acc += (target_pred.argmax(1) == target).type(torch.float).sum().item()

    # 计算平均准确率和平均损失
    test_acc /= size  # 将累计准确率除以样本总数，得到平均准确率
    test_loss /= num_batches  # 将累计损失除以批次数量，得到平均损失

    return test_acc, test_loss  # 返回测试过程中的平均准确率和平均损失

3.3 训练并保存效果最佳的模型

import copy
from datetime import datetime

# 导入必要的PyTorch组件
from torch.optim import lr_scheduler

optimizer  = torch.optim.Adam(model.parameters(), lr= 1e-4)
loss_fn    = nn.CrossEntropyLoss() # 创建损失函数

epochs     = 20

# 初始化训练和测试的损失和准确率列表
train_loss = []
train_acc = []
test_loss = []
test_acc = []

# 初始化最佳准确率和最佳模型参数
best_acc = 0
best_model_params = None

# 定义模型保存的根目录
model_root_dir = './model'

# 开始训练循环
for epoch in range(epochs):
    # 这里假设有一个函数来调整学习率，但被注释掉了
    # adjust_learning_rate(optimizer, epoch, learn_rate)
    
    # 将模型设置为训练模式
    model.train()
    # 这里假设有一个函数来执行训练，并返回训练的准确率和损失
    epoch_train_acc, epoch_train_loss = train(train_dl, model, loss_fn, optimizer)
    
    # 将模型设置为评估模式
    model.eval()
    # 这里假设有一个函数来执行测试，并返回测试的准确率和损失
    epoch_test_acc, epoch_test_loss = test(test_dl, model, loss_fn)
    
    # 如果当前epoch的测试准确率超过了之前的最佳准确率，则保存当前模型参数
    if epoch_test_acc > best_acc:
        best_acc = epoch_test_acc
        best_model_params = copy.deepcopy(model.state_dict())
    
    # 将当前epoch的准确率和损失添加到列表中
    train_acc.append(epoch_train_acc)
    train_loss.append(epoch_train_loss)
    test_acc.append(epoch_test_acc)
    test_loss.append(epoch_test_loss)
    
    # 获取当前的学习率
    lr = optimizer.state_dict()['param_groups'][0]['lr']
    
    # 打印当前epoch的信息
    template = ('Epoch:{:2d}, Train_acc:{:.1f}%, Train_loss:{:.3f}, Test_acc:{:.1f}%, Test_loss:{:.3f}, Lr:{:.2E}')
    print(template.format(epoch+1, epoch_train_acc*100, epoch_train_loss, 
                          epoch_test_acc*100, epoch_test_loss, lr))
    
# 创建一个带有时间戳的文件夹用来保存每次训练的最好模型
timestamp = datetime.now().strftime('%Y%m%d_%H%M%S')
model_dir = os.path.join(model_root_dir, timestamp)
os.makedirs(model_dir, exist_ok=True)

# 保存最佳模型参数
torch.save(best_model_params, os.path.join(model_dir, 'best_model_params.pth'))
print('best_model_params.pth 已保存在：' + model_dir)

print('Done')

输出：
在这里插入图片描述

4. 结果可视化

4.1 Loss与Accuracy图

import matplotlib.pyplot as plt  # 导入matplotlib的pyplot模块，用于数据可视化
import warnings  # 导入警告模块
warnings.filterwarnings("ignore")  # 忽略警告信息，避免绘图时出现警告提示

# 设置matplotlib的配置参数
plt.rcParams['axes.unicode_minus'] = False  # 设置正常显示负号
plt.rcParams['figure.dpi'] = 100  # 设置图像的分辨率

epochs_range = range(epochs)  # 创建一个从0到epochs-1的范围，用于x轴的刻度

# 设置图像大小
plt.figure(figsize=(12, 3))
# 创建一个1行2列的子图布局，并定位到第1个子图
plt.subplot(1, 2, 1)

# 在第1个子图上绘制训练和测试的准确率曲线
plt.plot(epochs_range, train_acc, label='Training Accuracy')  # 绘制训练准确率
plt.plot(epochs_range, test_acc, label='Test Accuracy')  # 绘制测试准确率
plt.legend(loc='lower right')  # 添加图例，位置在右下角
plt.title('Training and Validation Accuracy')  # 设置子图的标题

# 创建一个1行2列的子图布局，并定位到第2个子图
plt.subplot(1, 2, 2)
# 在第2个子图上绘制训练和测试的损失曲线
plt.plot(epochs_range, train_loss, label='Training Loss')  # 绘制训练损失
plt.plot(epochs_range, test_loss, label='Test Loss')  # 绘制测试损失
plt.legend(loc='upper right')  # 添加图例，位置在右上角
plt.title('Training and Validation Loss')  # 设置子图的标题

# 显示绘制的图像
plt.show()

输出：
在这里插入图片描述

4.2 模型评估

model.eval()
epoch_test_acc, epoch_test_loss = test(test_dl, model, loss_fn)

epoch_test_acc, epoch_test_loss

epoch_test_acc

输出：

在这里插入图片描述

您可能感兴趣的与本文相关的镜像

PyTorch 2.5

PyTorch

Cuda

PyTorch 是一个开源的 Python 机器学习库，基于 Torch 库，底层由 C++ 实现，应用于人工智能领域，如计算机视觉和自然语言处理