第三十八天打卡

最新推荐文章于 2025-08-04 22:31:11 发布

原创最新推荐文章于 2025-08-04 22:31:11 发布 · 183 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#python

DAY 38 Dataset和Dataloader类

知识点回顾：

Dataset类的__getitem__和__len__方法（本质是python的特殊方法）
Dataloader类
minist手写数据集的了解
作业：了解下cifar数据集，尝试获取其中一张图片

一、cifar数据集是什么

CIFAR（Canadian Institute for Advanced Research）数据集是深度学习领域中常用的图像分类基准数据集，由 Alex Krizhevsky、Vinod Nair 和 Geoffrey Hinton 整理。它包含两组数据集：CIFAR-10和CIFAR-100，广泛用于图像识别和计算机视觉研究。

import torch
import torch.nn as nn
import torch.optim as optim
from torch.utils.data import DataLoader, Dataset
from torchvision import datasets, transforms
import matplotlib.pyplot as plt
import numpy as np
 
# 设置随机种子，确保结果可复现
torch.manual_seed(42)
 
# 1. 数据预处理（包含归一化和标准化）
transform = transforms.Compose([
    transforms.ToTensor(),  # 转换为张量并归一化到[0,1]
    transforms.Normalize((0.4914, 0.4822, 0.4465), (0.2470, 0.2435, 0.2616))  # CIFAR-10数据集的均值和标准差
])
 
# 2. 加载CIFAR-10数据集，如果没有会自动下载到'./data'目录
train_dataset = datasets.CIFAR10(
    root='./data',
    train=True,
    download=True,
    transform=transform
)
 
test_dataset = datasets.CIFAR10(
    root='./data',
    train=False,
    transform=transform
)
 
# 3. 定义可视化函数（包含反标准化处理）
def imshow(img):
    """反标准化并显示图像"""
    img = img * torch.tensor((0.2470, 0.2435, 0.2616)).view(3, 1, 1) + torch.tensor((0.4914, 0.4822, 0.4465)).view(3, 1, 1)
    npimg = img.numpy()
    plt.imshow(np.transpose(npimg, (1, 2, 0)))  # 转换维度以适应plt格式
    plt.show()
 
# 4. 随机获取一张训练集图片
sample_idx = torch.randint(0, len(train_dataset), size=(1,)).item()  # 生成随机索引
image, label = train_dataset[sample_idx]  # 获取图像和标签
 
# 5. 显示图片及标签
class_names = ['飞机', '汽车', '鸟', '猫', '鹿', '狗', '青蛙', '马', '船', '卡车']  # CIFAR-10类别名称
print(f"标签: {class_names[label]}")
imshow(image)
 
# 6. 创建数据加载器（可选，用于批量处理）
train_loader = DataLoader(
    train_dataset,
    batch_size=64,
    shuffle=True
)
 
test_loader = DataLoader(
    test_dataset,
    batch_size=1000
)