Dataset和DataLoader-优快云博客

本文链接：https://blog.youkuaiyun.com/qq_56013891/article/details/144637222

torch.utils.data.Dataset 是 PyTorch 中的数据集类，它是所有自定义数据集类的基类，允许你对数据进行封装和操作，适用于 PyTorch 的数据加载系统。你可以继承这个类来构建自己的数据集，特别是当你有自定义的数据格式时，Dataset 提供了非常灵活的接口。

`torch.utils.data.Dataset` 类的主要作用：

数据封装：将数据封装到一个类中，提供一种标准化的访问接口。
与 DataLoader 兼容：与 DataLoader 一起使用时，可以高效地加载和批量处理数据。
支持自定义数据访问：你可以定义自己的方式来加载数据，例如从磁盘、网络等获取数据。

`torch.utils.data.Dataset` 的基本用法

继承 Dataset 类：你需要继承 Dataset 类，并实现其中两个方法：__len__() 和 __getitem__()。
- __len__()：返回数据集的大小，即样本的数量。
- __getitem__()：返回一个样本，通常是根据传入的索引 index 从数据中提取一个单独的样本（数据和标签）。
数据访问：__getitem__() 方法允许你根据索引获取数据，返回值通常是一个元组 (data, label)，其中 data 是输入数据，label 是相应的标签。

代码示例

下面是一个简单的 Dataset 类实现，演示了如何加载图像和标签。

import torch
from torch.utils.data import Dataset

class CustomDataset(Dataset):
    def __init__(self, data, labels):
        # 数据和标签
        self.data = data
        self.labels = labels
    
    def __len__(self):
        # 数据集大小
        return len(self.data)
    
    def __getitem__(self, index):
        # 返回指定索引的数据和标签
        sample = self.data[index]
        label = self.labels[index]
        return sample, label

1. `init(self, data, labels)`

作用：初始化 Dataset 类时，可以传入数据（例如图像或文本）和标签（对应数据的标签）。
示例：如果数据是一个图像列表，标签是对应的标签列表，data 和 labels 就是两个列表。

2. `len(self)`

作用：返回数据集的大小，即样本的数量。这个方法非常重要，它告诉 DataLoader 迭代数据时，数据集有多少个样本。
示例：如果 data 有 100 个元素，__len__() 应该返回 100。

3. `getitem(self, index)`

作用：给定一个索引，返回数据集中的一个样本。这个方法通常会从 data 中取出一个数据和它对应的标签，组成一个元组返回。
示例：如果 data[index] 是一张图像，labels[index] 是这张图像的标签（例如类别编号），返回 (data[index], labels[index])。

使用 `DataLoader` 加载数据

通常，Dataset 类会和 DataLoader 配合使用，DataLoader 用来自动化数据的批量加载、打乱和并行加载。

from torch.utils.data import DataLoader

# 创建数据集对象
dataset = CustomDataset(data, labels)

# 创建 DataLoader 对象
dataloader = DataLoader(dataset, batch_size=32, shuffle=True)

# 迭代数据
for batch_data, batch_labels in dataloader:
    # 在这里处理 batch_data 和 batch_labels
    pass

batch_size=32：每次加载 32 个样本。
shuffle=True：在每个 epoch 开始时打乱数据顺序。
dataloader：通过 DataLoader 迭代时，你会获取到批量的数据和标签。

`Dataset` 的常见应用

加载图像数据：如 ImageFolder，将图像数据集转换为 Tensor。
加载文本数据：如文本分类任务，处理文本数据。
自定义数据处理：比如加载不同格式的文件（例如 CSV、JSON），并将其转换为 PyTorch Tensor。

总结

torch.utils.data.Dataset 提供了一个灵活的接口，使得 PyTorch 用户可以自定义数据加载方式。通过继承 Dataset 并实现 __len__() 和 __getitem__() 方法，你可以将自己的数据封装成 PyTorch 可识别的数据集，并与 DataLoader 结合使用，方便高效地训练模型。