一、导入需要的包
import numpy as np
import pandas as pd
from sklearn.metrics import accuracy_score, confusion_matrix
import matplotlib.pyplot as plt
import seaborn as sns
import copy
import time
import torch
import torch.nn as nn
import torch.utils.data as Data
from torchvision import transforms
from torchvision.datasets import FashionMNIST
其中,torch.nn :包含用于构建神经网络的模块和可扩展类的子包;
torchvision是pytorch中的一个图形库;torch.utils.data实现自由的数据读取。
二、数据导入
我们以FashionMNIST为例:
# 准备训练数据集
train_data = FashionMNIST(
root="./FashionMNIST", # 数据的路径
train=True, # 只使用训练数据集
transform=transforms.ToTensor(), # 用于对载入的图片数据进行类型转换,将之前构成 PIL 图片的数据转换成 Tensor 数据类型的变量,让 PyTorch 能够对其进行计算和处理。
download=False
)
# 准备测试数据集
test_data = FashionMNIST(
root="./FashionMNIST", # 数据的路径
train=False, # 只使用训练数据集
download=False
)
其中,root表示数据集保存的目录名称;train=true表示导入训练集;train=false表示导入测试集;transform=transforms.ToTensor()表示将对载入的图片数据进行类型转换,将之前构成 PIL
图片的数据转换成 Tensor数据类型的变量,让pytorch 能够对其进行计算和处理。
三、预处理
# 定义一个数据加载器
train_loader = Data.DataLoader(
dataset=train_data, # 使用的数据集
batch_size=64, # 批处理样本大小
shuffle=False, # 每次迭代前不打乱数据
# num_workers=2, # 使用两个进程
)
# 获取一个batch的数据
for step, (b_x, b_y) in enumerate(train_loader):
if step > 0:
break
# 一个batch里的图片可视化
batch_x = b_x.squeeze().numpy()
batch_y = b_y.numpy()
class_label = train_data.classes
plt.figure(figsize=(12, 5))
for ii in np.arange(len(batch_y)):
plt.subplot(4, 16, ii+1)
plt.imshow(batch_x[ii, :, :], cmap=plt.cm.gray)
plt.title(class_label[batch_y[ii]], size=9)
plt.axis("off")
plt.subplots_adjust(wspace=0.05)
plt.show()
# 测试集数据预处理
test_data_x = test_data.data.type(torch.FloatTensor)/255.0
test_dat