深度学习--week_6-新手小白入门之路

N0nename

于 2025-08-04 15:50:54 发布

阅读量708

点赞数 20

CC 4.0 BY-SA版权

文章标签：深度学习人工智能

本文链接：https://blog.youkuaiyun.com/2401_86786489/article/details/149905876

- **🍨 本文为[🔗365天深度学习训练营](https://mp.weixin.qq.com/s/rnFa-IeY93EpjVu0yzzjkw) 中的学习记录博客**
- **🍖 原作者：[K同学啊](https://mtyjkh.blog.csdn.net/)**

前言

本文实现的是调用官方VGG16算法实现人脸的识别。本文主要目标是学会使用调用官方VGG-16网络进行预测，初步认识VGG16网络的原理和实现，加深对卷积神经网络的理解和应用。如果对卷积神经网络基础有缺可参考前几篇博客。

一.前置准备

1.环境配置

本文所用环境如下：

编译环境 pytho==3.8

编译器 Jupyter Lab

torch== 2.1.0+cu118

torchvision == 0.16.0+cu118

可用如下代码进行gpu检验，如果硬件不支持，可使用cpu:

import torch
import torch.nn as nn
import torchvision.transforms as transforms
import torchvision
from torchvision import transforms, datasets
import os,PIL,pathlib,warnings

warnings.filterwarnings("ignore")             #忽略警告信息

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
device

2.数据准备

(1).数据分析

本文使用数据集为网上人脸识别数据集，可自行下载。本文数据内部主要包括17个类别的人脸一共1800张图片数据。

(2).数据读取准备

将数据集放在对应的data_6根目录下，

1.路径读取代码 : data_dir为对应的根目录，利用pathlib.Path设置为对应的windowpath类，利用该类的.glob方法读取根目录下的所有路径，转为str，利用.split()切割保留对应的文件夹名，此时也是对应的标签名

import os,PIL,random,pathlib
data_dir='./data_6/'
data_dir=pathlib.Path(data_dir)
print(data_dir)
path_lib=list(data_dir.glob('*'))
print(path_lib)
classNames=[str(path).split('\\')[1] for path in path_lib]
classNames

二.数据处理

1.读取处理

将读取的数据在读取的同时进行处理，利用datasets.ImageFolder(路径，格式)方法进行处理，将对应路径下读取的图片按照对应的格式转化，train_forms的格式便是利用transfomrs.Compose将格式进行统一转化，转化格式为将图片转为[224,224]，tensor张量形式，并标准化均值为[0.485,0.456,0.466],标准差为[0.229,0.224,0.225]

train_forms=transforms.Compose([
    transforms.Resize([224,224]),
    transforms.ToTensor(),
    transforms.Normalize(
        mean=[0.485,0.456,0.406],
        std=[0.229,0.224,0.225]
    )
])
total_data=datasets.ImageFolder('./data_6/',transform=train_forms)
total_data

2.类别定义

将读取的数据利用.class_to_idx方法进行类别离散化

#标签类别
total_data.class_to_idx

3.训练集划分

先进行训练集和数据集的划分，利用torch.utils.data.random_split方法，对数据集按照指定的比例进行划分。

#划分批次
train_size=int(0.8*len(total_data))
test_size=len(total_data)-train_size
print(train_size,test_size)
train_dataset,test_dataset=torch.utils.data.random_split(total_data,[train_size,test_size])
train_dataset,test_dataset
# print(train_size)

4.批次划分

利用torch.utils.data.DataLoader方法进行批次划分，按批次进行数据集加载

batch_size=32
train_dl=torch.utils.data.DataLoader(
    train_dataset,
    batch_size=batch_size,
    shuffle=True,
    num_workers=1
)
test_dl=torch.utils.data.DataLoader(
    test_dataset,
    batch_size=batch_size,
    shuffle=True
)
train_dl,test_dl

划分查看:

for x,y in test_dl:
    print(x.shape)
    print(y.shape,y.dtype)
    break

三. 模型调用

利用model=vgg16()对模型进行调用，pretrained=True表示会自动下载并加载训练好的权重，.to（device）表示迁移到对应设备，param.requires_grad表示冻结模型的参数，参数都是由自动下载的最佳参数，所以可以不用进行梯度更新参数，只需要在最后的输出时候更新参数即可，model.classifier._modulse['6']将对应的层数参数改为我们所需要的输出类别数。


#调用官方VGG-16模型
from torchvision.models import vgg16
device='cuda' if torch.cuda.is_available() else 'cpu'
print('using {} device'.format(device))

model=vgg16(pretrained=True).to(device) #加载预训练模型
for param in model.parameters():
    param.requires_grad=False

model.classifier._modules['6']=nn.Linear(4096,len(classNames))
model.to(device)
model

对应的官方模型结构代码

using cuda device
VGG(
  (features): Sequential(
    (0): Conv2d(3, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (1): ReLU(inplace=True)
    (2): Conv2d(64, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (3): ReLU(inplace=True)
    (4): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
    (5): Conv2d(64, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (6): ReLU(inplace=True)
    (7): Conv2d(128, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (8): ReLU(inplace=True)
    (9): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
    (10): Conv2d(128, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (11): ReLU(inplace=True)
    (12): Conv2d(256, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (13): ReLU(inplace=True)
    (14): Conv2d(256, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (15): ReLU(inplace=True)
    (16): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
    (17): Conv2d(256, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (18): ReLU(inplace=True)
    (19): Conv2d(512, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (20): ReLU(inplace=True)
    (21): Conv2d(512, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (22): ReLU(inplace=True)
    (23): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
    (24): Conv2d(512, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (25): ReLU(inplace=True)
    (26): Conv2d(512, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (27): ReLU(inplace=True)
    (28): Conv2d(512, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (29): ReLU(inplace=True)
    (30): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
  )
  (avgpool): AdaptiveAvgPool2d(output_size=(7, 7))
  (classifier): Sequential(
    (0): Linear(in_features=25088, out_features=4096, bias=True)
    (1): ReLU(inplace=True)
    (2): Dropout(p=0.5, inplace=False)
    (3): Linear(in_features=4096, out_features=4096, bias=True)
    (4): ReLU(inplace=True)
    (5): Dropout(p=0.5, inplace=False)
    (6): Linear(in_features=4096, out_features=17, bias=True)
  )
)

设置优化器和动态学习率

def adjust_learning_rate(optimizer, epoch, start_lr):
    # 每 2 个epoch衰减到原来的 0.98
    lr = start_lr * (0.92 ** (epoch // 2))
    for param_group in optimizer.param_groups:
        param_group['lr'] = lr

learn_rate = 1e-4 # 初始学习率
optimizer  = torch.optim.SGD(model.parameters(), lr=learn_rate)

四.模型训练

1.训练代码:

# 训练循环
def train(dataloader, model, loss_fn, optimizer):
    size = len(dataloader.dataset)  # 训练集的大小
    num_batches = len(dataloader)   # 批次数目, (size/batch_size，向上取整)

    train_loss, train_acc = 0, 0  # 初始化训练损失和正确率
    
    for X, y in dataloader:  # 获取图片及其标签
        X, y = X.to(device), y.to(device)
        
        # 计算预测误差
        pred = model(X)          # 网络输出
        loss = loss_fn(pred, y)  # 计算网络输出和真实值之间的差距，targets为真实值，计算二者差值即为损失
        
        # 反向传播
        optimizer.zero_grad()  # grad属性归零
        loss.backward()        # 反向传播
        optimizer.step()       # 每一步自动更新
        
        # 记录acc与loss
        train_acc  += (pred.argmax(1) == y).type(torch.float).sum().item()
        train_loss += loss.item()
            
    train_acc  /= size
    train_loss /= num_batches

    return train_acc, train_loss

2.测试代码：

def test (dataloader, model, loss_fn):
    size        = len(dataloader.dataset)  # 测试集的大小
    num_batches = len(dataloader)          # 批次数目, (size/batch_size，向上取整)
    test_loss, test_acc = 0, 0
    
    # 当不进行训练时，停止梯度更新，节省计算内存消耗
    with torch.no_grad():
        for imgs, target in dataloader:
            imgs, target = imgs.to(device), target.to(device)
            
            # 计算loss
            target_pred = model(imgs)
            loss        = loss_fn(target_pred, target)
            
            test_loss += loss.item()
            test_acc  += (target_pred.argmax(1) == target).type(torch.float).sum().item()

    test_acc  /= size
    test_loss /= num_batches

    return test_acc, test_loss

3.正式训练

这里利用deepcopy复制最佳模型，保存最佳模型

import copy

loss_fn    = nn.CrossEntropyLoss() # 创建损失函数
epochs     = 40

train_loss = []
train_acc  = []
test_loss  = []
test_acc   = []

best_acc = 0    # 设置一个最佳准确率，作为最佳模型的判别指标

for epoch in range(epochs):
    # 更新学习率（使用自定义学习率时使用）
    adjust_learning_rate(optimizer, epoch, learn_rate)
    
    model.train()
    epoch_train_acc, epoch_train_loss = train(train_dl, model, loss_fn, optimizer)
    # scheduler.step() # 更新学习率（调用官方动态学习率接口时使用）

    model.eval()
    epoch_test_acc, epoch_test_loss = test(test_dl, model, loss_fn)
    
    # 保存最佳模型到 best_model
    if epoch_test_acc > best_acc:
        best_acc   = epoch_test_acc
        best_model = copy.deepcopy(model)
    
    train_acc.append(epoch_train_acc)
    train_loss.append(epoch_train_loss)
    test_acc.append(epoch_test_acc)
    test_loss.append(epoch_test_loss)
    
    # 获取当前的学习率
    lr = optimizer.state_dict()['param_groups'][0]['lr']
    
    template = ('Epoch:{:2d}, Train_acc:{:.1f}%, Train_loss:{:.3f}, Test_acc:{:.1f}%, Test_loss:{:.3f}, Lr:{:.2E}')
    print(template.format(epoch+1, epoch_train_acc*100, epoch_train_loss, 
                          epoch_test_acc*100, epoch_test_loss, lr))
    
# 保存最佳模型到文件中
PATH = './model/day_6/best_model.pth'  # 保存的参数文件名
torch.save(best_model.state_dict(), PATH)

print('Done')

训练结果:

4.可视化

import matplotlib.pyplot as plt
#隐藏警告
import warnings
warnings.filterwarnings("ignore")               #忽略警告信息
plt.rcParams['font.sans-serif']    = ['SimHei'] # 用来正常显示中文标签
plt.rcParams['axes.unicode_minus'] = False      # 用来正常显示负号
plt.rcParams['figure.dpi']         = 100        #分辨率

from datetime import datetime
current_time = datetime.now() # 获取当前时间

epochs_range = range(epochs)

plt.figure(figsize=(12, 3))
plt.subplot(1, 2, 1)

plt.plot(epochs_range, train_acc, label='Training Accuracy')
plt.plot(epochs_range, test_acc, label='Test Accuracy')
plt.legend(loc='lower right')
plt.title('Training and Validation Accuracy')
plt.xlabel(current_time) # 打卡请带上时间戳，否则代码截图无效

plt.subplot(1, 2, 2)
plt.plot(epochs_range, train_loss, label='Training Loss')
plt.plot(epochs_range, test_loss, label='Test Loss')
plt.legend(loc='upper right')
plt.title('Training and Validation Loss')
plt.show()

五.模型识别

from PIL import Image 

classes = list(total_data.class_to_idx)

def predict_one_image(image_path, model, transform, classes):
    
    test_img = Image.open(image_path).convert('RGB')
    plt.imshow(test_img)  # 展示预测的图片

    test_img = transform(test_img)
    img = test_img.to(device).unsqueeze(0)
    
    model.eval()
    output = model(img)

    _,pred = torch.max(output,1)
    pred_class = classes[pred]
    print(f'预测结果是：{pred_class}')

进行识别:

# 预测训练集中的某张照片
predict_one_image(image_path='./data_6/Angelina Jolie/001_fe3347c0.jpg', 
                  model=best_model, 
                  transform=train_forms, 
                  classes=classes)

总结

以上便是该次实践的全部内容，全部代码已经呈现，有需要的一段一段复制运行即可，如有问题，可在评论区指出（也可私聊），博主会欣然改正，有疑问或者好的建议也可私信博主，相信你能看到这里，应该会有点收获，如果给你带来了收获，那至少我会感到很荣幸，博主这么久的心血也没有白费~~（好吧这篇比较水），码字不易，给个三连，球球了~~