PyTorch翻译官网教程4-TRANSFORMS

原创已于 2023-07-15 11:38:32 修改 · 723 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#pytorch #人工智能 #python

于 2023-07-07 22:26:58 首次发布

深度学习专栏收录该内容

16 篇文章

订阅专栏

文章介绍了在PyTorch中如何使用Transforms模块对数据进行预处理，特别是针对FashionMNIST数据集。通过ToTensor转换将PIL图像转为张量并归一化，利用Lambda实现标签的one-hot编码，以便于训练机器学习模型。

官网链接

Transforms — PyTorch Tutorials 2.0.1+cu117 documentation

TRANSFORMS

数据并不总是以训练机器学习算法所需的最终处理形式出现,我们使用transforms对数据进行一些操作，使其适合于训练。

所有的TorchVision数据集都有两个参数，transform用于修改特征，target_transform用于修改标签。这两个参数为调用函数，包含转换逻辑。 torchvision.transforms 模块提供了几种常用的开箱即用的transform。

FashionMNIST的特征为PIL Image格式，标签为integer格式。为了训练，我们需要将特征转换为归一化处理的张量，将标签转换为one-hot编码的张量。为了完成这些转换，我们使用ToTensor和Lambda。

import torch
from torchvision import datasets
from torchvision.transforms import ToTensor, Lambda

ds = datasets.FashionMNIST(
    root="data",
    train=True,
    download=True,
    transform=ToTensor(),
    target_transform=Lambda(lambda y: torch.zeros(10, dtype=torch.float).scatter_(0, torch.tensor(y), value=1))
)

输出

Downloading http://fashion-mnist.s3-website.eu-central-1.amazonaws.com/train-images-idx3-ubyte.gz
Downloading http://fashion-mnist.s3-website.eu-central-1.amazonaws.com/train-images-idx3-ubyte.gz to data/FashionMNIST/raw/train-images-idx3-ubyte.gz

  0%|          | 0/26421880 [00:00<?, ?it/s]
  0%|          | 65536/26421880 [00:00<01:12, 362266.80it/s]
  1%|          | 229376/26421880 [00:00<00:38, 680230.69it/s]
  3%|2         | 720896/26421880 [00:00<00:12, 2002640.95it/s]
  6%|5         | 1540096/26421880 [00:00<00:07, 3218256.61it/s]
 16%|#5        | 4227072/26421880 [00:00<00:02, 9447718.64it/s]
 24%|##3       | 6225920/26421880 [00:00<00:01, 10376547.38it/s]
 33%|###3      | 8847360/26421880 [00:01<00:01, 14166293.23it/s]
 42%|####1     | 11042816/26421880 [00:01<00:01, 13678077.39it/s]
 52%|#####1    | 13631488/26421880 [00:01<00:00, 16516067.49it/s]
 60%|######    | 15925248/26421880 [00:01<00:00, 15417830.40it/s]
 70%|######9   | 18448384/26421880 [00:01<00:00, 17609718.89it/s]
 79%|#######9  | 20905984/26421880 [00:01<00:00, 16403516.46it/s]
 88%|########8 | 23298048/26421880 [00:01<00:00, 18134303.49it/s]
 98%|#########7| 25886720/26421880 [00:01<00:00, 17102426.93it/s]
100%|##########| 26421880/26421880 [00:02<00:00, 13182141.90it/s]
Extracting data/FashionMNIST/raw/train-images-idx3-ubyte.gz to data/FashionMNIST/raw

Downloading http://fashion-mnist.s3-website.eu-central-1.amazonaws.com/train-labels-idx1-ubyte.gz
Downloading http://fashion-mnist.s3-website.eu-central-1.amazonaws.com/train-labels-idx1-ubyte.gz to data/FashionMNIST/raw/train-labels-idx1-ubyte.gz

  0%|          | 0/29515 [00:00<?, ?it/s]
100%|##########| 29515/29515 [00:00<00:00, 327759.82it/s]
Extracting data/FashionMNIST/raw/train-labels-idx1-ubyte.gz to data/FashionMNIST/raw

Downloading http://fashion-mnist.s3-website.eu-central-1.amazonaws.com/t10k-images-idx3-ubyte.gz
Downloading http://fashion-mnist.s3-website.eu-central-1.amazonaws.com/t10k-images-idx3-ubyte.gz to data/FashionMNIST/raw/t10k-images-idx3-ubyte.gz

  0%|          | 0/4422102 [00:00<?, ?it/s]
  1%|1         | 65536/4422102 [00:00<00:11, 363698.07it/s]
  5%|5         | 229376/4422102 [00:00<00:06, 683312.59it/s]
 14%|#4        | 622592/4422102 [00:00<00:02, 1702377.65it/s]
 36%|###5      | 1572864/4422102 [00:00<00:00, 3401498.22it/s]
 76%|#######5  | 3342336/4422102 [00:00<00:00, 7182283.54it/s]
100%|##########| 4422102/4422102 [00:00<00:00, 5435154.93it/s]
Extracting data/FashionMNIST/raw/t10k-images-idx3-ubyte.gz to data/FashionMNIST/raw

Downloading http://fashion-mnist.s3-website.eu-central-1.amazonaws.com/t10k-labels-idx1-ubyte.gz
Downloading http://fashion-mnist.s3-website.eu-central-1.amazonaws.com/t10k-labels-idx1-ubyte.gz to data/FashionMNIST/raw/t10k-labels-idx1-ubyte.gz

  0%|          | 0/5148 [00:00<?, ?it/s]
100%|##########| 5148/5148 [00:00<00:00, 31293155.06it/s]
Extracting data/FashionMNIST/raw/t10k-labels-idx1-ubyte.gz to data/FashionMNIST/raw

ToTensor()

ToTensor将PIL图像或NumPy数组转换为FloatTensor。并在[0,1]范围内缩放图像的像素强度值。

Lambda Transforms

Lambda transforms应用于任何用户定义的Lambda函数。在这里，我们定义一个函数来将整数转换为一个one-hot 编码张量。它首先创建一个大小为10的零张量(我们数据集中的标签数量)，并调用scatter_，它对标签y给出的索引赋值=1。

target_transform = Lambda(lambda y: torch.zeros(
    10, dtype=torch.float).scatter_(dim=0, index=torch.tensor(y), value=1))