Pytorch深度学习入门（二）-优快云博客

本文链接：https://blog.youkuaiyun.com/Xu137150_/article/details/144145362

学习笔记

Dataset类

from torch.utils.data import Dataset
from PIL import Image//功能：导入照片
import os//一个关于系统的库

from torch.utils.data import Dataset
from PIL import Image//功能：导入照片
import os//一个关于系统的库



class MyData(Dataset):
    def __init__(self, root_dir, label_dir):
        self.root_dir = root_dir
        self.label_dir = label_dir
        self.path = os.path.join(self.root_dir, self.label_dir)
        self.img_path = os.listdir(self.path)

    def __getitem__(self, idx):
        img_name = self.img_path[idx]
        img_item_path = os.path.join(self.root_dir, self.label_dir, img_name)
        img = Image.open(img_item_path)
        label = self.label_dir
        return img, label

    def __len__(self):
        return len(self.img_path)


root_dir = "D:\\dev\\learn_pytoch\\dataset\\train"
ants_label_dir = "ants_image"
ants_dataset = MyData(root_dir, ants_label_dir)
print(ants_dataset)
print(ants_dataset[0])  # 根据重写的getitem返回 img与 label
img, label = ants_dataset[0]
img.show()
bees_label_dir = "bees_image"
bees_dataset = MyData(root_dir, bees_label_dir)
img, label = bees_dataset[0]
img.show()

train_dataset = ants_dataset + bees_dataset  # 两个数据集的拼接 未改变顺序，ants在前 bees在后
print(len(ants_dataset))
print(len(bees_dataset))
print(len(train_dataset))

TensorBoard的使用

add_saclar()常用来绘制train/val loss
- add_saclar()常用来绘制train/val loss
- ```
def add_scalars(self,main_tag,tag_scalar_dict,global_step=None,walltime=None): 
```
  - tag：Data指定方式，类似于图表的title
    
    scalar_value：需要保存的数值（y轴）
    
    global_step：训练到多少步（x轴）
add_image()常用来观察训练结果
- def add_image(self, tag, img_tensor, global_step=None):
  - tag：对应图像的title
  - img_tensor：图像的数据类型，只能是torch.Tensor、numpy.array、string/blobnaem
  - global_step：训练步骤，int 类型
  - HWC顺序

from torch.utils.tensorboard import SummaryWriter
import numpy as np
from PIL import Image

writer=SummaryWriter("logs")

image_path="dataset/train/ants_image/0013035.jpg"
img_PIL=Image.open(image_path)
img_array=np.array(img_PIL)
writer.add_image("test",img_array,1,dataformats='HWC')

for i in range(100):
    writer.add_scalar("y=2x",2*i,i)
writer.close()

Transforms结构及用法

transforms.py 工具箱
工具箱里放着 totensor / resize等类工具
拿一些特定格式的图片，经过工具（class文件）后，就会输出我们想要的图片变换的结果。
一些类
- Compose类：结合不同的transforms
- ToTensor类：把一个PIL的Image或者numpy数据类型的图片转换成 tensor 的数据类型
- ToPILImage类：把一个图片转换成PIL Image
- Normalize类：归一化，标准化，用来对数据预处理
- Resize类：尺寸变换 CenterCrop类：中心裁剪
- Regularize类：正则化，防止模型过拟合的技术
通过transforms.ToTensor思考两个问题
- transforms该如何使用：用transforms中的某个类创建一个工具，使用工具
- 为什么需要Tensor数据类型：包装了神经网络所需要的一些数据参数

常见的Transforms

输入
输出
作用
图片有不同的格式，打开方式也不同

图片格式 打开方式
PIL Image.open() ——Python自带的图片打开方式
tensor ToTensor()
narrays cv.imread() ——Opencv
Python的call方法
- 在 Python 中，call 是一个特殊方法（也称为魔术方法或双下划线方法），用于使对象可以像函数一样被调用。当你在一个对象上调用 obj() 时，Python 解释器会查找该对象的call 方法并调用它
- ```
class MyClass:
    def __init__(self, value):
        self.value = value
    
    def __call__(self, x):
        return self.value + x

obj = MyClass(10)
result = obj(5)  # 调用了 __call__ 方法
print(result)  # 输出: 15
```
Compose的使用
- Compose用于组合多个图像转换（transform）操作。通过 Compose，可以创建一个转换流程，这个流程可以按顺序执行多个图像处理操作，这些操作可以包括缩放、裁剪、归一化等，其需要的参数是一个列表，其元素类型是transforms类型。
  - 格式Compose([transforms参数1,transforms参数

图片格式	打开方式
PIL	Image.open() ——Python自带的图片打开方式
tensor	ToTensor()
narrays	cv.imread() ——Opencv

ToTensor的使用

from PIL import Image
from torch.utils.tensorboard import SummaryWriter
from torchvision import transforms
 
writer = SummaryWriter("logs")
img = Image.open("images/pytorch.png")
print(img)  # 可以看到类型是PIL
 
# ToTensor的使用
trans_totensor = transforms.ToTensor()  # 将类型转换为tensor
img_tensor = trans_totensor(img)  # img变为tensor类型后，就可以放入TensorBoard当中
writer.add_image("ToTensor", img_tensor)
writer.close()

把 PIL Image 或 numpy.ndarray 类型转换为 tensor 类型（TensorBoard 必须是 tensor 的数据类型）

Normalize的使用

#Normalize的使用
print(img_tensor[0][0][0])  # 第0层第0行第0列
trans_norm = transforms.Normalize([0.5,0.5,0.5],[0.5,0.5,0.5])  # mean,std，因为图片是RGB三信道，故传入三个数
img_norm = trans_norm(img_tensor)  # 输入的类型要是tensor
print(img_norm[0][0][0])
writer.add_image("Normalize",img_norm)

用平均值/标准差归一化 tensor 类型的 image（输入）
图片RGB三个信道，将每个信道中的输入进行归一化
- output[channel] = (input[channel] - mean[channel]) / std[channel]
- 设置 mean 和 std 都为0.5，则 output= 2*input -1。如果 input 图片像素值为0~1范围内，那么结果就是 -1~1之间

Resize的使用

#Resize的使用
print(img.size)  # 输入是PIL.Image
 
trans_resize = transforms.Resize((512,512))
#img：PIL --> resize --> img_resize：PIL
img_resize = trans_resize(img)  #输出还是PIL Image
 
#img_resize：PIL --> totensor --> img_resize：tensor（同名，覆盖）
img_resize = trans_totensor(img_resize)
 
writer.add_image("Resize",img_resize,0)
print(img_resize)#Normalize的使用
print(img_tensor[0][0][0])  # 第0层第0行第0列
trans_norm = transforms.Normalize([0.5,0.5,0.5],[0.5,0.5,0.5])  # mean,std，因为图片是RGB三信道，故传入三个数
img_norm = trans_norm(img_tensor)  # 输入的类型要是tensor
print(img_norm[0][0][0])
writer.add_image("Normalize",img_norm)

输入：PIL Image将输入转变到给定尺寸
- 序列：（h,w）高度，宽度
- 一个整数：不改变高和宽的比例，只单纯改变最小边和最长边之间的大小关系。之前图里最小的边将会匹配这个数（等比缩放）

RandomCrop()的使用

#RandomCrop()的使用
trans_random = transforms.RandomCrop(512)
trans_compose_2 = transforms.Compose([trans_random,trans_totensor])
for i in range(10):  #裁剪10个
    img_crop = trans_compose_2(img)  # 输入需要是PIL Image
    writer.add_image("RandomCrop",img_crop,i)

随机裁剪，输入PIL Image
- 参数size：
  - sequence：（h,w）高，宽
  - int：裁剪一个该整数×该整数的图像

torchvision中数据集的使用

如何把数据集（多张图片）和 transforms 结合在一起。
标准数据集如何下载、查看、使用。
各个模块作用
（1）torchvision.datasets

如：COCO 目标检测、语义分割；MNIST 手写文字；CIFAR 物体识别

（2）torchvision.io

输入输出模块，不常用

（3）torchvision.models

提供一些比较常见的神经网络，有的已经预训练好，比较重要，分类模型、语义分割模型、目标检测、视频分类等会使用到

（4）torchvision.ops

torchvision提供的一些比较少见的特殊的操作，基本不常用

（5）torchvision.transforms

之前讲解过

（6）torchvision.utils

提供一些常用的小工具，如TensorBoard

本节主要学习torchvision.datasets，以及它如何跟transforms联合使用

CIFAR10数据集

#如何使用torchvision提供的标准数据集
import torchvision
 
train_set=torchvision.datasets.CIFAR10(root="./dataset",train=True,download=True) #root使用相对路径，会在该.py所在位置创建一个叫dataset的文件夹，同时把数据保存进去。
test_set=torchvision.datasets.CIFAR10(root="./dataset",train=False,download=True)
 


#数据集如何查看与使用 
import torchvision
train_set=torchvision.datasets.CIFAR10(root="./dataset",train=True,download=True)
test_set=torchvision.datasets.CIFAR10(root="./dataset",train=False,download=True)
 
print(test_set[0])  # 查看测试集中的第一个数据，是一个元组：(img, target)
print(test_set.classes)  # 列表
 
img,target = test_set[0]
print(img)
print(target)  # 输出：3。输出为列表第几个类别。从0开始数，这里类别为cat列表第四个
print(test_set.classes[target])  # cat
img.show()



#如何把数据集多张图片和transforms结合在一起
#CIFAR10数据集原始图片是PIL Image，如果要给pytorch使用，需要转为tensor数据类型（转成tensor后，就可以用tensorboard了）

import torchvision
from torch.utils.tensorboard import SummaryWriter
 
#把dataset_transform运用到数据集中的每一张图片，都转为tensor数据类型
dataset_transform = torchvision.transforms.Compose([
    torchvision.transforms.ToTensor()
])
 
train_set=torchvision.datasets.CIFAR10(root="./dataset",train=True,transform=dataset_transform,download=True) #root使用相对路径，会在该.py所在位置创建一个叫dataset的文件夹，同时把数据保存进去
test_set=torchvision.datasets.CIFAR10(root="./dataset",train=False,transform=dataset_transform,download=True)
 
# print(test_set[0])
 
writer = SummaryWriter("p10")
#显示测试数据集中的前10张图片
for i in range(10):
    img,target = test_set[i]
    writer.add_image("test_set",img,i)  # img已经转成了tensor类型
 
writer.close()

DataLoader的使用

dataset告诉程序中数据集的位置，数据集中索引，数据集中有多少数据（想象成一叠扑克牌）
dataloader加载器，将数据加载到神经网络中，每次从dataset中取数据，通过dataloader中的参数可以设置如何取数据（想象成抓的一组牌）
参数介绍
- dataset：只有dataset没有默认值，只需要将之前自定义的dataset实例化，再放到dataloader中即可
- batch_size：每次抓牌抓几张
- shuffle：打乱与否，值为True的话两次打牌时牌的顺序是不一样。默认为False，但一般用True
- num_workers：加载数据时采用单个进程还是多个进程，多进程的话速度相对较快，默认为0（主进程加载）。Windows系统下该值>0会有问题（报错提示：BrokenPipeError）
- drop_last：100张牌每次取3张，最后会余下1张，这时剩下的这张牌是舍去还是不舍去。值为True代表舍去这张牌、不取出，False代表要取出该张牌
import torchvision
from torch.utils.data import DataLoader

#准备的测试数据集
test_data = torchvision.datasets.CIFAR10("dataset",train=False,transform=torchvision.transforms.ToTensor)

test_loader = DataLoader(dataset=test_data,batch_size=4,shuffle=True,num_workers=0,drop_last=False)

Pycharm小技巧

ctrl + / 可将代码注释掉。
按 ctrl 与函数名可直接查看其功能。
如何打开事件文件：
tensorboard --logdir=logs # logdir=事件文件所在文件夹名
搜索结构快捷键

File—> Settings—> Keymap—> 搜索 structure（快捷键 Alt+7）
Ctrl+P可以提示函数里需要填什么参数

两种读取图片的方式

#PIL IMAGE
from PIL import Image
img_path = "xxx"
img = Image.open(img_path)
img.show()

#numpy.ndarray(通过opencv)
import cv2
cv_img=cv2.imread(img_path)