Pytorch深度学习入门(二)

学习笔记

Dataset类

from torch.utils.data import Dataset
from PIL import Image//功能:导入照片
import os//一个关于系统的库

from torch.utils.data import Dataset
from PIL import Image//功能:导入照片
import os//一个关于系统的库



class MyData(Dataset):
    def __init__(self, root_dir, label_dir):
        self.root_dir = root_dir
        self.label_dir = label_dir
        self.path = os.path.join(self.root_dir, self.label_dir)
        self.img_path = os.listdir(self.path)

    def __getitem__(self, idx):
        img_name = self.img_path[idx]
        img_item_path = os.path.join(self.root_dir, self.label_dir, img_name)
        img = Image.open(img_item_path)
        label = self.label_dir
        return img, label

    def __len__(self):
        return len(self.img_path)


root_dir = "D:\\dev\\learn_pytoch\\dataset\\train"
ants_label_dir = "ants_image"
ants_dataset = MyData(root_dir, ants_label_dir)
print(ants_dataset)
print(ants_dataset[0])  # 根据重写的getitem返回 img与 label
img, label = ants_dataset[0]
img.show()
bees_label_dir = "bees_image"
bees_dataset = MyData(root_dir, bees_label_dir)
img, label = bees_dataset[0]
img.show()

train_dataset = ants_dataset + bees_dataset  # 两个数据集的拼接 未改变顺序,ants在前 bees在后
print(len(ants_dataset))
print(len(bees_dataset))
print(len(train_dataset))

TensorBoard的使用

  • add_saclar()常用来绘制train/val loss

    • add_saclar()常用来绘制train/val loss

    • def add_scalars(self,main_tag,tag_scalar_dict,global_step=None,walltime=None): 
      • tagData指定方式,类似于图表的title

        scalar_value需要保存的数值(y轴)

        global_step训练到多少步(x轴)

  • add_image()常用来观察训练结果

    • def add_image(self, tag, img_tensor, global_step=None):

      • tag:对应图像的title

      • img_tensor:图像的数据类型,只能是torch.Tensor、numpy.array、string/blobnaem

      • global_step:训练步骤,int 类型

      • HWC顺序

from torch.utils.tensorboard import SummaryWriter
import numpy as np
from PIL import Image

writer=SummaryWriter("logs")

image_path="dataset/train/ants_image/0013035.jpg"
img_PIL=Image.open(image_path)
img_array=np.array(img_PIL)
writer.add_image("test",img_array,1,dataformats='HWC')

for i in range(100):
    writer.add_scalar("y=2x",2*i,i)
writer.close()

Transforms结构及用法

  • transforms.py 工具箱

  • 工具箱里放着 totensor / resize等类工具

  • 拿一些特定格式的图片,经过工具(class文件)后,就会输出我们想要的图片变换的结果。

  • 一些类

    • Compose类:结合不同的transforms

    • ToTensor类:把一个PIL的Image或者numpy数据类型的图片转换成 tensor 的数据类型

    • ToPILImage类:把一个图片转换成PIL Image

    • Normalize类:归一化,标准化,用来对数据预处理

    • Resize类:尺寸变换 CenterCrop类:中心裁剪

    • Regularize类:正则化,防止模型过拟合的技术

  • 通过transforms.ToTensor思考两个问题

    • transforms该如何使用:用transforms中的某个类创建一个工具,使用工具

    • 为什么需要Tensor数据类型:包装了神经网络所需要的一些数据参数

常见的Transforms

  • 输入

  • 输出

  • 作用

  • 图片有不同的格式,打开方式也不同

    图片格式打开方式
    PILImage.open() ——Python自带的图片打开方式
    tensorToTensor()
    narrayscv.imread() ——Opencv
  • Python的call方法

    • 在 Python 中,call 是一个特殊方法(也称为魔术方法或双下划线方法),用于使对象可以像函数一样被调用。当你在一个对象上调用 obj() 时,Python 解释器会查找该对象的call 方法并调用它

    • class MyClass:
          def __init__(self, value):
              self.value = value
          
          def __call__(self, x):
              return self.value + x
      ​
      obj = MyClass(10)
      result = obj(5)  # 调用了 __call__ 方法
      print(result)  # 输出: 15
       
  • Compose的使用

    • Compose用于组合多个图像转换(transform)操作。通过 Compose,可以创建一个转换流程,这个流程可以按顺序执行多个图像处理操作,这些操作可以包括缩放、裁剪、归一化等,其需要的参数是一个列表,其元素类型是transforms类型。

      • 格式Compose([transforms参数1,transforms参数

  • ToTensor的使用

    • from PIL import Image
      from torch.utils.tensorboard import SummaryWriter
      from torchvision import transforms
       
      writer = SummaryWriter("logs")
      img = Image.open("images/pytorch.png")
      print(img)  # 可以看到类型是PIL
       
      # ToTensor的使用
      trans_totensor = transforms.ToTensor()  # 将类型转换为tensor
      img_tensor = trans_totensor(img)  # img变为tensor类型后,就可以放入TensorBoard当中
      writer.add_image("ToTensor", img_tensor)
      writer.close()
    • 把 PIL Image 或 numpy.ndarray 类型转换为 tensor 类型(TensorBoard 必须是 tensor 的数据类型)

  • Normalize的使用

    • #Normalize的使用
      print(img_tensor[0][0][0])  # 第0层第0行第0列
      trans_norm = transforms.Normalize([0.5,0.5,0.5],[0.5,0.5,0.5])  # mean,std,因为图片是RGB三信道,故传入三个数
      img_norm = trans_norm(img_tensor)  # 输入的类型要是tensor
      print(img_norm[0][0][0])
      writer.add_image("Normalize",img_norm)

    • 用平均值/标准差归一化 tensor 类型的 image(输入)

    • 图片RGB三个信道,将每个信道中的输入进行归一化

      • output[channel] = (input[channel] - mean[channel]) / std[channel]

      • 设置 mean 和 std 都为0.5,则 output= 2*input -1。如果 input 图片像素值为0~1范围内,那么结果就是 -1~1之间

    • Resize的使用

      • #Resize的使用
        print(img.size)  # 输入是PIL.Image
         
        trans_resize = transforms.Resize((512,512))
        #img:PIL --> resize --> img_resize:PIL
        img_resize = trans_resize(img)  #输出还是PIL Image
         
        #img_resize:PIL --> totensor --> img_resize:tensor(同名,覆盖)
        img_resize = trans_totensor(img_resize)
         
        writer.add_image("Resize",img_resize,0)
        print(img_resize)#Normalize的使用
        print(img_tensor[0][0][0])  # 第0层第0行第0列
        trans_norm = transforms.Normalize([0.5,0.5,0.5],[0.5,0.5,0.5])  # mean,std,因为图片是RGB三信道,故传入三个数
        img_norm = trans_norm(img_tensor)  # 输入的类型要是tensor
        print(img_norm[0][0][0])
        writer.add_image("Normalize",img_norm)
      •  输入:PIL Image将输入转变到给定尺寸

        • 序列:(h,w)高度,宽度

        • 一个整数:不改变高和宽的比例,只单纯改变最小边和最长边之间的大小关系。之前图里最小的边将会匹配这个数(等比缩放)

    • RandomCrop()的使用

      • #RandomCrop()的使用
        trans_random = transforms.RandomCrop(512)
        trans_compose_2 = transforms.Compose([trans_random,trans_totensor])
        for i in range(10):  #裁剪10个
            img_crop = trans_compose_2(img)  # 输入需要是PIL Image
            writer.add_image("RandomCrop",img_crop,i)
      • 随机裁剪,输入PIL Image

        • 参数size:

          • sequence:(h,w) 高,宽

          • int:裁剪一个该整数×该整数的图像

torchvision中数据集的使用

  • 如何把数据集(多张图片)和 transforms 结合在一起。

  • 标准数据集如何下载、查看、使用。

  • 各个模块作用

  • (1)torchvision.datasets

    如:COCO 目标检测、语义分割;MNIST 手写文字;CIFAR 物体识别

    (2)torchvision.io

    输入输出模块,不常用

    (3)torchvision.models

    提供一些比较常见的神经网络,有的已经预训练好,比较重要,分类模型、语义分割模型、目标检测、视频分类等会使用到

    (4)torchvision.ops

    torchvision提供的一些比较少见的特殊的操作,基本不常用

    (5)torchvision.transforms

    之前讲解过

    (6)torchvision.utils

    提供一些常用的小工具,如TensorBoard

  • 本节主要学习torchvision.datasets,以及它如何跟transforms联合使用

    • CIFAR10数据集

      #如何使用torchvision提供的标准数据集
      import torchvision
       
      train_set=torchvision.datasets.CIFAR10(root="./dataset",train=True,download=True) #root使用相对路径,会在该.py所在位置创建一个叫dataset的文件夹,同时把数据保存进去。
      test_set=torchvision.datasets.CIFAR10(root="./dataset",train=False,download=True)
       
      ​
      ​
      #数据集如何查看与使用 
      import torchvision
      train_set=torchvision.datasets.CIFAR10(root="./dataset",train=True,download=True)
      test_set=torchvision.datasets.CIFAR10(root="./dataset",train=False,download=True)
       
      print(test_set[0])  # 查看测试集中的第一个数据,是一个元组:(img, target)
      print(test_set.classes)  # 列表
       
      img,target = test_set[0]
      print(img)
      print(target)  # 输出:3。输出为列表第几个类别。从0开始数,这里类别为cat列表第四个
      print(test_set.classes[target])  # cat
      img.show()
      ​
      ​
      ​
      #如何把数据集多张图片和transforms结合在一起
      #CIFAR10数据集原始图片是PIL Image,如果要给pytorch使用,需要转为tensor数据类型(转成tensor后,就可以用tensorboard了)
      ​
      import torchvision
      from torch.utils.tensorboard import SummaryWriter
       
      #把dataset_transform运用到数据集中的每一张图片,都转为tensor数据类型
      dataset_transform = torchvision.transforms.Compose([
          torchvision.transforms.ToTensor()
      ])
       
      train_set=torchvision.datasets.CIFAR10(root="./dataset",train=True,transform=dataset_transform,download=True) #root使用相对路径,会在该.py所在位置创建一个叫dataset的文件夹,同时把数据保存进去
      test_set=torchvision.datasets.CIFAR10(root="./dataset",train=False,transform=dataset_transform,download=True)
       
      # print(test_set[0])
       
      writer = SummaryWriter("p10")
      #显示测试数据集中的前10张图片
      for i in range(10):
          img,target = test_set[i]
          writer.add_image("test_set",img,i)  # img已经转成了tensor类型
       
      writer.close()

DataLoader的使用

  • dataset告诉程序中数据集的位置,数据集中索引,数据集中有多少数据(想象成一叠扑克牌)

  • dataloader加载器,将数据加载到神经网络中,每次从dataset中取数据,通过dataloader中的参数可以设置如何取数据(想象成抓的一组牌)

  • 参数介绍

    • dataset:只有dataset没有默认值,只需要将之前自定义的dataset实例化,再放到dataloader中即可

    • batch_size:每次抓牌抓几张

    • shuffle:打乱与否,值为True的话两次打牌时牌的顺序是不一样。默认为False,但一般用True

    • num_workers:加载数据时采用单个进程还是多个进程,多进程的话速度相对较快,默认为0(主进程加载)。Windows系统下该值>0会有问题(报错提示:BrokenPipeError)

    • drop_last:100张牌每次取3张,最后会余下1张,这时剩下的这张牌是舍去还是不舍去。值为True代表舍去这张牌、不取出,False代表要取出该张牌

  •  

    import torchvision
    from torch.utils.data import DataLoader
     
    #准备的测试数据集
    test_data = torchvision.datasets.CIFAR10("dataset",train=False,transform=torchvision.transforms.ToTensor)
     
    test_loader = DataLoader(dataset=test_data,batch_size=4,shuffle=True,num_workers=0,drop_last=False)

Pycharm小技巧

  • ctrl + / 可将代码注释掉。

  • 按 ctrl 与函数名可直接查看其功能。

  • 如何打开事件文件:

  • tensorboard --logdir=logs # logdir=事件文件所在文件夹名

  • 搜索结构快捷键

    File—> Settings—> Keymap—> 搜索 structure(快捷键 Alt+7

  • Ctrl+P可以提示函数里需要填什么参数

  • 两种读取图片的方式

    • #PIL IMAGE
      from PIL import Image
      img_path = "xxx"
      img = Image.open(img_path)
      img.show()
    • #numpy.ndarray(通过opencv)
      import cv2
      cv_img=cv2.imread(img_path)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值