Pytorch数据集预处理_python torch 数据预处理-优快云博客

本文链接：https://blog.youkuaiyun.com/pai_da_xing8/article/details/148084503

数据预处理应该放在哪个方法中？

在 PyTorch 的自定义数据集类中，数据预处理可以放在 __init__ 方法或 __getitem__ 方法中，但这两者有不同的适用场景和优缺点。

一、放在 `init` 方法中的预处理

适合情况：

只需执行一次的预处理操作
所有样本共享的预处理步骤
数据集较小，可以一次性加载到内存
预处理计算量大但结果固定的操作

优点：

只执行一次，提高效率
减少训练过程中的计算开销
确保所有样本使用相同的预处理参数（如归一化的均值和标准差）

缺点：

占用更多内存
不适合大型数据集
不支持随机数据增强

示例代码：

def __init__(self, data_path):
    # 读取数据
    df = pd.read_csv(data_path)
    
    # 预处理：标签编码
    label_map = {"类别1": 0, "类别2": 1}
    df['标签'] = df['标签'].map(label_map)
    
    # 预处理：特征归一化
    data = df.iloc[:, :-1].values
    data = (data - np.mean(data, axis=0)) / np.std(data, axis=0)
    
    # 转换为张量
    self.data = torch.from_numpy(data.astype(np.float32))
    self.labels = torch.from_numpy(df['标签'].values.astype(np.int64))

二、放在 `getitem` 方法中的预处理

适合情况：

需要随机数据增强
数据集太大，无法一次性加载到内存
每个样本需要不同的预处理
预处理步骤可能在训练过程中变化

优点：

节省内存
支持随机数据增强
适合大型数据集
可以实现更灵活的预处理策略

缺点：

每次访问数据时都要执行，可能降低训练速度
如果预处理复杂，可能成为性能瓶颈
可能导致每个 epoch 看到的数据略有不同

示例代码：

def __getitem__(self, index):
    # 获取原始数据
    img_path = self.image_paths[index]
    label = self.labels[index]
    
    # 读取图像
    image = Image.open(img_path).convert('RGB')
    
    # 预处理：随机数据增强
    if self.is_train:
        if random.random() > 0.5:
            image = transforms.functional.hflip(image)
    
    # 预处理：调整大小和标准化
    image = transforms.functional.resize(image, (224, 224))
    image = transforms.functional.to_tensor(image)
    image = transforms.functional.normalize(
        image, 
        mean=[0.485, 0.456, 0.406], 
        std=[0.229, 0.224, 0.225]
    )
    
    return image, label

三、最佳实践

混合策略（推荐）：

在 __init__ 中进行：
- 数据加载
- 路径收集
- 标签编码
- 全局统计计算（均值、标准差等）
- 固定的预处理步骤
在 __getitem__ 中进行：
- 按需加载数据（如图像、音频）
- 随机数据增强
- 裁剪、调整大小
- 最终的标准化/归一化
- 转换为张量

示例代码：

def __init__(self, root_dir, transform=None):
    self.root_dir = root_dir
    self.transform = transform
    
    # 收集图像路径和标签
    self.image_paths = []
    self.labels = []
    # ... 收集逻辑 ...
    
    # 计算数据集统计信息（用于标准化）
    self.mean = [0.485, 0.456, 0.406]  # 可以预先计算或使用标准值
    self.std = [0.229, 0.224, 0.225]

def __getitem__(self, index):
    # 获取路径和标签
    img_path = self.image_paths[index]
    label = self.labels[index]
    
    # 读取图像
    image = Image.open(img_path).convert('RGB')
    
    # 应用变换（包括随机数据增强）
    if self.transform:
        image = self.transform(image)
    else:
        # 基本变换
        image = transforms.functional.to_tensor(image)
        image = transforms.functional.normalize(image, self.mean, self.std)
    
    return image, label