FROM
- 🍨 本文为🔗365天深度学习训练营 中的学习记录博客
- 🍖 原作者:K同学啊
我的环境
- 语言环境:Python 3.8.10
- 开发工具:Jupyter Lab
- 深度学习环境:
- torch==1.12.1+cu113
- torchvision==0.13.1+cu113
1. 准备知识
1.1 检查环境
import torch # 导入PyTorch库,用于构建深度学习模型
import torch.nn as nn # 导入torch.nn模块,包含构建神经网络所需的类和函数
import matplotlib.pyplot as plt # 导入matplotlib.pyplot模块,用于数据可视化
import torchvision # 导入torchvision库,包含处理图像和视频的工具和预训练模型
# 设置硬件设备,如果有GPU则使用,没有则使用cpu
device = torch.device("cuda" if torch.cuda.is_available() else "cpu") # 检查系统是否有可用的GPU,如果有则使用GPU,否则使用CPU
print(torch.__version__) # 输出torch版本
device # 打印当前设备,以确认是使用GPU还是CPU
输出:
1.2 数据导入
导入本地数据
# 导入必要的库
import os, PIL, random, pathlib
# 设置数据目录路径
data_dir = './data/'
data_dir = pathlib.Path(data_dir)
# 获取数据目录下的所有文件路径
data_paths = list(data_dir.glob('*'))
# 提取每个文件路径中的类别名称
# 假设文件路径的结构是:'./data/类别名称/文件名'
# 这里使用列表推导式来创建类别名称的列表
classeNames = [str(path).split("/")[1] for path in data_paths if path.is_dir()]
# 输出类别名称列表
print(classeNames)
输出:
# 设置数据目录路径
total_datadir = './data/'
# 导入torchvision.transforms模块
from torchvision import transforms
from torchvision.datasets import ImageFolder
from torchvision import datasets
# 定义训练时的图像变换操作
train_transforms = transforms.Compose([
transforms.Resize([224, 224]), # 将输入图片resize成统一尺寸
transforms.ToTensor(), # 将PIL Image或numpy.ndarray转换为tensor,并归一化到[0,1]之间
transforms.Normalize( # 标准化处理-->转换为标准正太分布(高斯分布),使模型更容易收敛
mean=[0.485, 0.456, 0.406],
std=[0.229, 0.224, 0.225]) # 其中mean和std是从数据集中随机抽样计算得到的。
])
# 使用ImageFolder类加载数据,并应用上面定义的图像变换
total_data = datasets.ImageFolder(root=total_datadir, transform=train_transforms)
total_data
输出:
# 使用ImageFolder类加载数据时,每个类别会被自动分配一个索引
# class_to_idx属性是一个字典,它将类别名称映射到对应的索引
class_to_idx = total_data.class_to_idx
# 输出class_to_idx字典
print(class_to_idx)
输出:
1.3 划分数据集
# 计算训练集大小,占总数据集的80%
train_size = int(0.8 * len(total_data))
# 计算测试集大小,即总数据集减去训练集大小
test_size = len(total_data) - train_size
# 使用random_split方法将数据集随机分割为训练集和测试集
train_dataset, test_dataset = torch.utils.data.random_split(total_data, [train_size, test_size])
# 输出训练集和测试集的大小
print(f"Training set size: {len(train_dataset)}")
print(f"Test set size: {len(test_dataset)}")
train_dataset, test_dataset
输出:
# 设置批量大小
batch_size = 32
# 创建训练数据加载器
train_dl = torch.utils.data.DataLoader(train_dataset,
batch_size=batch_size,
shuffle=True,
num_workers=1)
# 创建测试数据加载器
test_dl = torch.utils.data.DataLoader(test_dataset,
batch_size=batch_size,
shuffle=True,
num_workers=1)
# 遍历测试数据加载器,打印第一个批次的输入和标签的形状
for X, y in test_dl:
print("Shape of X [N, C, H, W]: ", X.shape)
print("Shape of y: ", y.shape, y.dtype)
break
输出:
2. 构建简单的CNN网络
卷积神经网络(CNN)是一种深度学习模型,广泛应用于图像识别、分类和分割等任务。下面是一些主要组件的详细说明:
torch.nn.Conv2d()
详解
torch.nn.Conv2d
是 PyTorch 中定义二维卷积层的类。以下是它的参数的详细解释:
torch.nn.Conv2d(
in_channels: int, 输入数据的通道数。例如,对于RGB图像,in_channels 通常是3。
out_channels: int, 输出数据的通道数。这通常决定了卷积层输出的特征图的数量。
kernel_size: int or tuple, 卷积核的大小。可以是单个整数(表示卷积核的高度和宽度相同),也可以是元组 (H, W) 指定高度和宽度。
stride: int or tuple = 1, 卷积的步长。可以是单个整数(表示高度和宽度的步长相同),也可以是元组 (H, W) 指定不同的步长。
padding: int or tuple or str = 0, 填充的大小。可以是单个整数(表示在高度和宽度方向上添加相同数量的填充),可以是元组 (H, W) 指定不同的填充,也可以是字符串(如 'same' 或 'valid'),这取决于 padding_mode 参数。
dilation: int or tuple = 1, 卷积的空洞率。可以是单个整数(表示高度和宽度的空洞率相同),也可以是元组 (H, W) 指定不同的空洞率。
groups: int = 1, 分组卷积的数量。分组卷积可以减少模型的参数数量和计算量。
bias: bool = True, 布尔值,指示卷积层是否包含偏置项。
padding_mode: str = 'zeros', 填充模式,可以是 'zeros'、'reflect'、'replicate' 或 'circular'。
device: torch.device = None, 指定设备对象,卷积层的参数将被初始化在该设备上。
dtype: torch.dtype = None 指定数据类型对象,卷积层的参数将被初始化为该数据类型。
)
- 作用:用于提取图像的特征。通过学习图像中局部区域的特征,卷积层可以捕捉到图像的局部特征。
torch.nn.Linear()
详解
torch.nn.Linear
是 PyTorch 中定义全连接层(也称为线性层或稠密层)的类。以下是它的参数的详细解释:
torch.nn.Linear(
in_features: int, 输入数据的特征数量。这是全连接层输入的每个样本的特征数。
out_features: int, 输出数据的特征数量。这是全连接层输出的每个样本的特征数,也称为神经元的数量。
bias: bool = True, 布尔值,指示全连接层是否包含偏置项。如果设置为 True,则层中将包含偏置项;如果设置为 False,则不包含。
device: torch.device = None, 指定设备对象,全连接层的参数将被初始化在该设备上。如果为 None,则参数将被初始化在 CPU 上。
dtype: torch.dtype = None 指定数据类型对象,全连接层的参数将被初始化为该数据类型。如果为 None,则参数将被初始化为默认的数据类型(通常是 torch.float32)。
)
- 作用:在CNN中,全连接层通常用于最终的分类或回归任务。在特征提取的最后阶段,全连接层将学习到的高级特征映射到最终的输出类别。
torch.nn.MaxPool2d()
详解
torch.nn.MaxPool2d 是 PyTorch 中定义二维最大池化层的类。最大池化层用于对输入特征图进行下采样,通过滑动窗口中的最大值来降低特征图的空间维度,同时保留最重要的信息。以下是它的参数的详细解释:
torch.nn.MaxPool2d(
kernel_size: int or tuple, 池化窗口的大小。可以是单个整数(表示高度和宽度的窗口大小相同),也可以是元组 (H, W) 指定高度和宽度的窗口大小。
stride: int or tuple = None, 池化的步长。可以是单个整数(表示高度和宽度的步长相同),也可以是元组 (H, W) 指定不同的步长。如果设置为 None,则默认等于 kernel_size。
padding: int or tuple = 0, 填充的大小。可以是单个整数(表示在高度和宽度方向上添加相同数量的填充),也可以是元组 (H, W) 指定不同的填充。
dilation: int = 1, 池化窗口的空洞率。可以是单个整数(表示高度和宽度的空洞率相同),也可以是元组 (H, W) 指定不同的空洞率。空洞池化可以增加池化窗口的有效感受野而不增加计算量。
return_indices: bool = False, 布尔值,指示是否返回最大值的索引。如果设置为 True,则返回每个输出元素的最大值的索引。
ceil_mode: bool = False 布尔值,指示是否使用天花板函数来计算输出大小。如果设置为 True,则输出大小将向上取整。
)
- 作用:最大池化层是卷积神经网络中常用的结构,它有助于减少特征图的维度,从而减少模型的参数数量和计算量,同时能够保持特征的重要信息。
# 导入PyTorch中的功能函数模块
import torch.nn.functional as F
# 定义一个继承自nn.Module的类Network_bn,表示一个卷积神经网络
class Network_bn(nn.Module):
# 初始化方法
def __init__(self):
# 调用父类nn.Module的初始化方法
super(Network_bn, self).__init__()
# 定义第一个卷积层conv1,输入通道数为3(RGB图像),输出通道数为12,卷积核大小为5x5
self.conv1 = nn.Conv2d(in_channels=3, out_channels=12, kernel_size=5, stride=1, padding=0)
# 定义第一个批量归一化层bn1,与conv1的输出通道数相同
self.bn1 = nn.BatchNorm2d(12)
# 定义第二个卷积层conv2,输入和输出通道数均为12
self.conv2 = nn.Conv2d(in_channels=12, out_channels=12, kernel_size=5, stride=1, padding=0)
# 定义第二个批量归一化层bn2
self.bn2 = nn.BatchNorm2d(12)
# 定义第一个最大池化层pool1,池化窗口大小为2x2,步长为2
self.pool1 = nn.MaxPool2d(2,2)
# 定义第三个卷积层conv4,输入通道数为12,输出通道数为24
self.conv4 = nn.Conv2d(in_channels=12, out_channels=24, kernel_size=5, stride=1, padding=0)
# 定义第三个批量归一化层bn4
self.bn4 = nn.BatchNorm2d(24)
# 定义第四个卷积层conv5,输入和输出通道数均为24
self.conv5 = nn.Conv2d(in_channels=24, out_channels=24, kernel_size=5, stride=1, padding=0)
# 定义第四个批量归一化层bn5
self.bn5 = nn.BatchNorm2d(24)
# 定义第二个最大池化层pool2
self.pool2 = nn.MaxPool2d(2,2)
# 定义一个全连接层fc1,输入特征数为24*50*50(假设池化后的特征图大小为50x50),输出特征数为类别数len(classeNames)
self.fc1 = nn.Linear(24*50*50, len(classeNames))
# 前向传播方法
def forward(self, x):
# 通过卷积层、批量归一化层和ReLU激活函数
x = F.relu(self.bn1(self.conv1(x)))
x = F.relu(self.bn2(self.conv2(x)))
# 通过最大池化层
x = self.pool1(x)
x = F.relu(self.bn4(self.conv4(x)))
x = F.relu(self.bn5(self.conv5(x)))
# 再次通过最大池化层
x = self.pool2(x)
# 调整张量形状以匹配全连接层的输入要求
x = x.view(-1, 24*50*50)
# 通过全连接层
x = self.fc1(x)
# 返回网络的输出
return x
# 检测是否有可用的GPU,如果有则使用GPU,否则使用CPU
device = "cuda" if torch.cuda.is_available() else "cpu"
# 打印使用的设备
print("Using {} device".format(device))
# 实例化网络并将它发送到指定的设备(GPU或CPU)
model = Network_bn().to(device)
# 打印模型
model
输出:
3. 模型训练
3.1 设置超参数
loss_fn = nn.CrossEntropyLoss() # 创建损失函数
learn_rate = 1e-4 # 学习率
opt = torch.optim.SGD(model.parameters(),lr=learn_rate)
3.2 训练函数
# 训练循环
def train(dataloader, model, loss_fn, optimizer):
size = len(dataloader.dataset) # 获取数据加载器中的样本总数,例如MNIST数据集有60000张图片
num_batches = len(dataloader) # 计算数据加载器中的批次数量,例如60000张图片,每批次32张,共有1875个批次
train_loss, train_acc = 0, 0 # 初始化累计训练损失和准确率
# 遍历数据加载器中的所有批次
for X, y in dataloader:
X, y = X.to(device), y.to(device) # 将特征和标签转移到GPU或CPU
# 前向传播
pred = model(X) # 使用模型进行预测
loss = loss_fn(pred, y) # 计算预测和真实标签之间的损失
# 反向传播和优化
optimizer.zero_grad() # 清零模型参数的梯度
loss.backward() # 反向传播,计算梯度
optimizer.step() # 根据梯度更新模型参数
# 记录准确率和损失
train_acc += (pred.argmax(1) == y).type(torch.float).sum().item() # 计算预测正确的样本数量
train_loss += loss.item() # 累加损失值
# 计算平均准确率和平均损失
train_acc /= size # 将累计准确率除以样本总数,得到平均准确率
train_loss /= num_batches # 将累计损失除以批次数量,得到平均损失
return train_acc, train_loss # 返回训练过程中的平均准确率和平均损失
3.3 测试函数
- 这个
test
函数接收三个参数:dataloader
、model
和loss_fn
。 - 它遍历
dataloader
中的所有批次,对每个批次执行前向传播和损失计算,但不进行反向传播或参数更新,因为测试阶段的目的是评估模型性能,而不是训练模型。 - 在每个批次中,它计算模型的预测值
target_pred
,然后使用损失函数loss_fn
计算预测值和真实标签target
之间的损失loss
。 - 函数还记录了整个测试集上的平均准确率和平均损失。
def test(dataloader, model, loss_fn):
size = len(dataloader.dataset) # 获取测试数据集中的样本总数,例如CIFAR-10数据集有10000张图片
num_batches = len(dataloader) # 计算测试数据加载器中的批次数量
test_loss, test_acc = 0, 0 # 初始化累计测试损失和准确率
# 使用torch.no_grad()上下文管理器,停止梯度计算,因为在测试阶段不需要更新模型参数
with torch.no_grad():
for imgs, target in dataloader:
imgs, target = imgs.to(device), target.to(device) # 将图像和标签转移到GPU或CPU
# 前向传播,获取模型的预测输出
target_pred = model(imgs)
# 计算模型预测输出和真实标签之间的损失
loss = loss_fn(target_pred, target)
# 累加损失和准确率
test_loss += loss.item()
test_acc += (target_pred.argmax(1) == target).type(torch.float).sum().item()
# 计算平均准确率和平均损失
test_acc /= size # 将累计准确率除以样本总数,得到平均准确率
test_loss /= num_batches # 将累计损失除以批次数量,得到平均损失
return test_acc, test_loss # 返回测试过程中的平均准确率和平均损失
3.4 训练
# 定义训练的总轮数(epochs)
epochs = 20
# 初始化空列表用于存储训练和测试过程中的准确率和损失值
train_loss = []
train_acc = []
test_loss = []
test_acc = []
# 开始训练循环,epochs次迭代
for epoch in range(epochs):
# 将模型设置为训练模式
model.train()
# 训练模型一个epoch,并返回该epoch的训练准确率和损失值
epoch_train_acc, epoch_train_loss = train(train_dl, model, loss_fn, opt)
# 将模型设置为评估模式
model.eval()
# 评估模型一个epoch,并返回该epoch的测试准确率和损失值
epoch_test_acc, epoch_test_loss = test(test_dl, model, loss_fn)
# 将计算得到的准确率和损失值添加到对应的列表中
train_acc.append(epoch_train_acc)
train_loss.append(epoch_train_loss)
test_acc.append(epoch_test_acc)
test_loss.append(epoch_test_loss)
# 定义一个字符串模板,用于格式化打印每个epoch的结果
template = ('Epoch:{:2d}, Train_acc:{:.1f}%, Train_loss:{:.3f}, Test_acc:{:.1f}%,Test_loss:{:.3f}')
# 打印当前epoch的编号、训练准确率、训练损失、测试准确率和测试损失
print(template.format(epoch+1, epoch_train_acc*100, epoch_train_loss, epoch_test_acc*100, epoch_test_loss))
# 训练完成后打印“Done”
print('Done')
输出:
4. 结果可视化
4.1 Loss与Accuracy图
import matplotlib.pyplot as plt # 导入matplotlib的pyplot模块,用于数据可视化
import warnings # 导入警告模块
warnings.filterwarnings("ignore") # 忽略警告信息,避免绘图时出现警告提示
# 设置matplotlib的配置参数
# plt.rcParams['font.sans-serif'] = ['SimHei'] # 设置中文字体,使得图表可以正常显示中文
plt.rcParams['axes.unicode_minus'] = False # 设置正常显示负号
plt.rcParams['figure.dpi'] = 100 # 设置图像的分辨率
epochs_range = range(epochs) # 创建一个从0到epochs-1的范围,用于x轴的刻度
# 设置图像大小
plt.figure(figsize=(12, 3))
# 创建一个1行2列的子图布局,并定位到第1个子图
plt.subplot(1, 2, 1)
# 在第1个子图上绘制训练和测试的准确率曲线
plt.plot(epochs_range, train_acc, label='Training Accuracy') # 绘制训练准确率
plt.plot(epochs_range, test_acc, label='Test Accuracy') # 绘制测试准确率
plt.legend(loc='lower right') # 添加图例,位置在右下角
plt.title('Training and Validation Accuracy') # 设置子图的标题
# 创建一个1行2列的子图布局,并定位到第2个子图
plt.subplot(1, 2, 2)
# 在第2个子图上绘制训练和测试的损失曲线
plt.plot(epochs_range, train_loss, label='Training Loss') # 绘制训练损失
plt.plot(epochs_range, test_loss, label='Test Loss') # 绘制测试损失
plt.legend(loc='upper right') # 添加图例,位置在右上角
plt.title('Training and Validation Loss') # 设置子图的标题
# 显示绘制的图像
plt.show()
输出:
4.2 指定图片进行预测
from PIL import Image
# 假设total_data是一个已经定义好的数据集对象,它有一个class_to_idx属性,该属性是一个字典,将类别名称映射到一个唯一的索引
classes = list(total_data.class_to_idx)
# 定义一个函数,用于预测单张图片的类别
def predict_one_image(image_path, model, transform, classes):
# 使用PIL库打开图片文件,并将其转换为RGB模式
test_img = Image.open(image_path).convert('RGB')
# plt.imshow(test_img) # 这行代码被注释掉了,如果取消注释,可以用来展示预测的图片
# 对图片应用预处理转换
test_img = transform(test_img)
# 将处理后的图片转换为模型输入需要的格式,并增加一个批次维度
img = test_img.to(device).unsqueeze(0)
# 将模型设置为评估模式
model.eval()
# 通过模型进行前向传播,得到输出
output = model(img)
# 获取模型输出中概率最大的类别索引
_, pred = torch.max(output, 1)
# 根据索引从classes列表中获取对应的类别名称
pred_class = classes[pred]
# 打印预测结果
print(f'预测结果是:{pred_class}')
# 调用predict_one_image函数,传入以下参数:
predict_one_image(
# 指定要预测的图片路径
image_path='./data/Monkeypox/M01_01_00.jpg',
# 传入预训练的模型对象
model=model,
# 传入用于训练时的图片预处理转换函数
transform=train_transforms,
# 传入类别名称列表
classes=classes
)
输出:
5. 保存并加载模型
# 模型保存
PATH = './model/model.pth' # 保存的参数文件名
torch.save(model.state_dict(), PATH)
# 将参数加载到model当中
model.load_state_dict(torch.load(PATH, map_location=device))
输出:
6.课后
6.1 要求
- 训练过程中保存效果最好的模型参数。
- 加载最佳模型参数识别本地的一张图片。
- 调整网络结构使测试集accuracy到达88%(重点)。
6.1.1 训练过程中保存效果最好的模型参数
修改代码:
import os
import torch
import copy
from datetime import datetime
# 定义训练的总轮数(epochs)
epochs = 20
# 初始化空列表用于存储训练和测试过程中的准确率和损失值
train_loss = []
train_acc = []
test_loss = []
test_acc = []
# 初始化最佳准确率和对应的模型参数
best_acc = 0.0
best_model_params = None
# 定义模型保存的根目录
model_root_dir = './model'
# 开始训练循环,epochs次迭代
for epoch in range(epochs):
# 将模型设置为训练模式
model.train()
# 训练模型一个epoch,并返回该epoch的训练准确率和损失值
epoch_train_acc, epoch_train_loss = train(train_dl, model, loss_fn, opt)
# 将模型设置为评估模式
model.eval()
# 评估模型一个epoch,并返回该epoch的测试准确率和损失值
epoch_test_acc, epoch_test_loss = test(test_dl, model, loss_fn)
# 将计算得到的准确率和损失值添加到对应的列表中
train_acc.append(epoch_train_acc)
train_loss.append(epoch_train_loss)
test_acc.append(epoch_test_acc)
test_loss.append(epoch_test_loss)
# 定义一个字符串模板,用于格式化打印每个epoch的结果
template = ('Epoch:{:2d}, Train_acc:{:.1f}%, Train_loss:{:.3f}, Test_acc:{:.1f}%, Test_loss:{:.3f}')
# 打印当前epoch的编号、训练准确率、训练损失、测试准确率和测试损失
print(template.format(epoch+1, epoch_train_acc*100, epoch_train_loss, epoch_test_acc*100, epoch_test_loss))
# 检查是否是最佳准确率,如果是,则保存模型参数
if epoch_test_acc > best_acc:
best_acc = epoch_test_acc
best_model_params = copy.deepcopy(model.state_dict())
# 训练完成后打印“Done”
print('Done')
# 创建一个带有时间戳的文件夹用来保存每次训练的最好模型
timestamp = datetime.now().strftime('%Y%m%d_%H%M%S')
model_dir = os.path.join(model_root_dir, timestamp)
os.makedirs(model_dir, exist_ok=True)
# 保存最佳模型参数
torch.save(best_model_params, os.path.join(model_dir, 'best_model_params.pth'))
print('best_model_params.pth 已保存在:' + model_dir)
输出:
6.1.2 加载最佳模型参数识别本地的一张图片
PATH = './model/20241101_171431/best_model_params.pth' # 保存的参数文件名
# 将参数加载到model当中
model.load_state_dict(torch.load(PATH, map_location=device))
# 调用predict_one_image函数,传入以下参数:
predict_one_image(
# 指定要预测的图片路径
image_path='./data/Others/NM01_01_00.jpg',
# 传入预训练的模型对象
model=model,
# 传入用于训练时的图片预处理转换函数
transform=train_transforms,
# 传入类别名称列表
classes=classes
)
输出:
6.1.3 调整网络结构使测试集accuracy到达88%(重点)
修改网络结构:
# 导入PyTorch中的功能函数模块
import torch.nn.functional as F
class Network_bn(nn.Module):
def __init__(self):
super(Network_bn, self).__init__()
self.conv1 = nn.Conv2d(3, 12, 5, padding=2) # 增加padding保持图像尺寸
self.bn1 = nn.BatchNorm2d(12)
self.conv2 = nn.Conv2d(12, 12, 5, padding=2)
self.bn2 = nn.BatchNorm2d(12)
self.pool1 = nn.MaxPool2d(2, 2)
self.conv3 = nn.Conv2d(12, 24, 3, padding=1) # 增加一个卷积层
self.bn3 = nn.BatchNorm2d(24)
self.conv4 = nn.Conv2d(24, 24, 3, padding=1) # 增加一个卷积层
self.bn4 = nn.BatchNorm2d(24)
self.pool2 = nn.MaxPool2d(2, 2)
self.fc1 = nn.Linear(24*56*56, len(classeNames)) # 根据池化后的尺寸调整输入特征数
def forward(self, x):
x = F.relu(self.bn1(self.conv1(x)))
x = F.relu(self.bn2(self.conv2(x)))
x = self.pool1(x)
x = F.relu(self.bn3(self.conv3(x))) # 新增卷积层
x = F.relu(self.bn4(self.conv4(x))) # 新增卷积层
x = self.pool2(x)
x = x.view(-1, 24*56*56)
x = self.fc1(x)
return x
# 检测是否有可用的GPU,如果有则使用GPU,否则使用CPU
device = "cuda" if torch.cuda.is_available() else "cpu"
# 打印使用的设备
print("Using {} device".format(device))
# 实例化网络并将它发送到指定的设备(GPU或CPU)
model = Network_bn().to(device)
# 打印模型
model
使用Adam优化器:
loss_fn = nn.CrossEntropyLoss() # 创建损失函数
learn_rate = 1e-4 # 学习率
opt = torch.optim.Adam(model.parameters(),lr=learn_rate)
输出:
6.2 拔高
6.2.1 调整网络结构使测试集accuracy到达90%(见6.1.3)
- 测试集accuracy到达90%。