神经网络之基于pytorch的数据预处理_thchs30数据集声学模型 pytorch-优快云博客

本文介绍使用PyTorch框架进行数据预处理的方法，包括数据集下载、图像数据处理、数据打包及预览。详细讲解了torchvision包的功能，如数据标准化、数据类型转换和数据增强技巧。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

数据预处理

pytorch框架中有两个核心包，torch和torchvision，其中

torch中包含torch.optim参数优化，torch.autograd梯度自动更新
torchvision包的主要功能是实现数据的处理，导入和预览。

本文将以手写体为实验进行数据加载，处理与预览

1. 导入包

import torch
from torchvision import datasets,transforms
from torch.autograd import Variable

datasets: torchvision中包含了一些常用的数据集，可以直接采用其下载
transforms:对图像数据的一些变换操作，后面详细介绍
autograd:梯度自动更新

2. 数据集下载

import torch
from torchvision import datasets,transforms
from torch.autograd import Variable
transform = transforms.Compose([transforms.ToTensor(),transforms.Normalize(mean=[0.5,0.5,0.5],std=[0.5,0.5,0.5])])
data_train = datasets.MNIST(root='./data/',transform=transform,train=True,download=True)
data_test = datasets.MNIST(root='./data/',transform=transform,train=False)
print(data_test[1])
输出的是一个：28*28*3的tensor数据。

在这里插入图片描述

3. 图像数据处理–transforms

transforms中提供了丰富的类对载入的数据进行变换，计算机视觉的数据集大多是图片类，而pytorch中实际进行的是Tensor数据类型的变量，所以在进行训练数据之前要将数据进行转换，如果获得的图像数据的大小和格式形状等不一样，我们还需要进行归一化 、缩小等操作

若我们需要解决的问题的数据集有限，我们可以进行数据增强即对有限的数据进行各种变换生成新的数据集，常用的对图片的：缩小，放大，水平，垂直等都是数据增强的方法

transform = transforms.Compose([transforms.ToTensor(),transforms.Normalize(mean=[0.5,0.5,0.5],std=[0.5,0.5,0.5])])

名称	方法｜
transforms.Compose()	此类可以看作是一个容器，可以对多种数据变换进行组合，传入的参数是列表，列表中的元素就是对载入的数据进行的变换。
transforms.Normalize()	数据标准化变换
tranforms.ToTensor()	数据类型转换,将PIL图片数据转换成tensor数据类型
tranforms.ToPILImage()	将tensor数据类型转换成PIL图像

4.数据打包–打包后可送入模型进行训练

前面是进行数据下载，数据处理，经过这些步骤之后，再进行数据集的装载（打包），数据打包后可送入模型中进行训练，打包时可通过batch_size来确定包的大小，shuffle可确定是否打乱图片顺序。

data_loader_train = torch.utils.data.DataLoader(dataset=data_train,batch_size=64,shuffle=True)
data_loader_test = torch.utils.data.DataLoader(dataset=data_test,batch_size=64,shuffle=True)

5. 图片预览

import matplotlib.pyplot as plt
import torchvision
images,labels = next(iter(data_loader_test))
img = torchvision.utils.make_grid(images)
img = img.numpy().transpose(1,2,0)
std = [0.5,0.5,0.5]
mean= [0.5,0.5,0.5]
img = img*std+mean# 之前标准化变换公式：x_normal = (x-mean)/std
print([labels[i] for i in range(64)])
plt.imshow(img)

在这里插入图片描述

next和iter是获取一个批次中的图像数据和其对应的标签，
图像数据在使用matplotlib展示之前必须采用numpy和transpose完成原始数据转换和维度变换之前是(channel,height,weight )–> (height,weight,channel) 即位置(1，2，0)。
make_grid()就是将一个批次的图片构造成一个网格模式