第J2周：ResNet50V2算法实战与解析

最新推荐文章于 2025-08-04 14:47:09 发布

原创

最新推荐文章于 2025-08-04 14:47:09 发布 · 981 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#算法

🍨 本文为🔗365天深度学习训练营中的学习记录博客

🍖 原作者：K同学啊

1.ResNetV2结构与ResNet结构对比

在这里插入图片描述
🧲 改进点：(a)original 表示原始的 ResNet 的残差结构，(b)proposed 表示新的 ResNet 的残差结构。主要差别就是(a)结构先卷积后进行 BN 和激活函数计算，最后执行 addition 后再进行ReLU 计算； (b)结构先进行 BN 和激活函数计算后卷积，把 addition 后的 ReLU 计算放到了残差结构内部。

📌 改进结果：作者使用这两种不同的结构在 CIFAR-10 数据集上做测试，模型用的是 1001层的 ResNet 模型。从图中结果我们可以看出，(b)proposed 的测试集错误率明显更低一些，达到了 4.92%的错误率，(a)original 的测试集错误率是 7.61%。

1.2关于残差结构的不同尝试

在这里插入图片描述

(b-f)中的快捷连接被不同的组件阻碍。为了简化插图，我们不显示BN层，这里所有单位均采用权值层之后的BN层。图中(a-f)都是作者对残差结构的 shortcut 部分进行的不同尝试，作者对不同 shortcut 结构的尝试结果如下表所示。

作者用不同 shortcut 结构的 ResNet-110 在 CIFAR-10 数据集上做测试，发现最原始的(a)original 结构是最好的，也就是 identity mapping 恒等映射是最好的。

1.3关于激活的尝试

在这里插入图片描述

最好的结果是(e)full pre-activation，其次到(a)original。

二、论文复现
思路：因为本章是识别四种鸟类，pytorch框架

2.1.1. 设置GPU

如果设备上支持GPU就使用GPU,否则使用CPU。尽量配置好GPU使用。

import torch
import torch.nn as nn
import torchvision.transforms as transforms
import torchvision
from torchvision import transforms, datasets
import os,PIL,pathlib,warnings
 
warnings.filterwarnings("ignore")             #忽略警告信息
 
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

2.1.2. 导入数据

data_dir = '/home/aiusers/space_yjl/深度学习训练营/进阶/第J1周：ResNet-50算法实战与解析/第8天/bird_photos'
data_dir = pathlib.Path(data_dir)
data_paths = list(data_dir.glob('*'))
classNames = [str(path).split('/')[9] for path in data_paths]
print(data_dir)
print(classNames)

在这里插入图片描述
图形变换，输出一下：用到torchvision.transforms.Compose()类，

train_transforms = transforms.Compose([
    transforms.Resize([224, 224]),  # 将输入图片resize成统一尺寸
    # transforms.RandomHorizontalFlip(), # 随机水平翻转
    transforms.ToTensor(),  # 将PIL Image或numpy.ndarray转换为tensor，并归一化到[0,1]之间
    transforms.Normalize(  # 标准化处理-->转换为标准正太分布（高斯分布），使模型更容易收敛
        mean=[0.485, 0.456, 0.406],
        std=[0.229, 0.224, 0.225])  # 其中 mean=[0.485,0.456,0.406]与std=[0.229,0.224,0.225] 从数据集中随机抽样计算得到的。
])
 
test_transform = transforms.Compose([
    transforms.Resize([224, 224]),  # 将输入图片resize成统一尺寸
    transforms.ToTensor(),  # 将PIL Image或numpy.ndarray转换为tensor，并归一化到[0,1]之间
    transforms.Normalize(  # 标准化处理-->转换为标准正太分布（高斯分布），使模型更容易收敛
        mean=[0.485, 0.456, 0.406],
        std=[0.229, 0.224, 0.225])  # 其中 mean=[0.485,0.456,0.406]与std=[0.229,0.224,0.225] 从数据集中随机抽样计算得到的。
])
 
total_data = datasets.ImageFolder("/home/aiusers/space_yjl/深度学习训练营/进阶/第J1周：ResNet-50算法实战与解析/第8天/bird_photos", transform=train_transforms)
print(total_data.class_to_idx)

在这里插入图片描述

2.1.3. 划分数据集

划分训练集和测试集.

train_size = int(0.8 * len(total_data))
test_size  = len(total_data) - train_size
train_dataset, test_dataset = torch.utils.data.random_split(total_data, [train_size, test_size])

batch_size = 32
train_dl = torch.utils.data.DataLoader(train_dataset,
                                           batch_size=batch_size,
                                           shuffle=True,
                                           num_workers=0)
test_dl = torch.utils.data.DataLoader(test_dataset,
                                          batch_size=batch_size,
                                          shuffle=True,
                                          num_workers=0)
for X, y in test_dl:
    print("Shape of X [N, C, H, W]: "

最低0.47元/天解锁文章