学习笔记
Dataset类
from torch.utils.data import Dataset
from PIL import Image//功能:导入照片
import os//一个关于系统的库
from torch.utils.data import Dataset
from PIL import Image//功能:导入照片
import os//一个关于系统的库
class MyData(Dataset):
def __init__(self, root_dir, label_dir):
self.root_dir = root_dir
self.label_dir = label_dir
self.path = os.path.join(self.root_dir, self.label_dir)
self.img_path = os.listdir(self.path)
def __getitem__(self, idx):
img_name = self.img_path[idx]
img_item_path = os.path.join(self.root_dir, self.label_dir, img_name)
img = Image.open(img_item_path)
label = self.label_dir
return img, label
def __len__(self):
return len(self.img_path)
root_dir = "D:\\dev\\learn_pytoch\\dataset\\train"
ants_label_dir = "ants_image"
ants_dataset = MyData(root_dir, ants_label_dir)
print(ants_dataset)
print(ants_dataset[0]) # 根据重写的getitem返回 img与 label
img, label = ants_dataset[0]
img.show()
bees_label_dir = "bees_image"
bees_dataset = MyData(root_dir, bees_label_dir)
img, label = bees_dataset[0]
img.show()
train_dataset = ants_dataset + bees_dataset # 两个数据集的拼接 未改变顺序,ants在前 bees在后
print(len(ants_dataset))
print(len(bees_dataset))
print(len(train_dataset))
TensorBoard的使用
-
add_saclar()常用来绘制train/val loss
-
add_saclar()常用来绘制train/val loss
-
def add_scalars(self,main_tag,tag_scalar_dict,global_step=None,walltime=None):
-
tag:Data指定方式,类似于图表的title
scalar_value:需要保存的数值(y轴)
global_step:训练到多少步(x轴)
-
-
-
add_image()常用来观察训练结果
-
def add_image(self, tag, img_tensor, global_step=None):
-
tag:对应图像的title
-
img_tensor:图像的数据类型,只能是torch.Tensor、numpy.array、string/blobnaem
-
global_step:训练步骤,int 类型
-
HWC顺序
-
-
from torch.utils.tensorboard import SummaryWriter
import numpy as np
from PIL import Image
writer=SummaryWriter("logs")
image_path="dataset/train/ants_image/0013035.jpg"
img_PIL=Image.open(image_path)
img_array=np.array(img_PIL)
writer.add_image("test",img_array,1,dataformats='HWC')
for i in range(100):
writer.add_scalar("y=2x",2*i,i)
writer.close()
Transforms结构及用法
-
transforms.py 工具箱
-
工具箱里放着 totensor / resize等类工具
-
拿一些特定格式的图片,经过工具(class文件)后,就会输出我们想要的图片变换的结果。
-
一些类
-
Compose类:结合不同的transforms
-
ToTensor类:把一个PIL的Image或者numpy数据类型的图片转换成 tensor 的数据类型
-
ToPILImage类:把一个图片转换成PIL Image
-
Normalize类:归一化,标准化,用来对数据预处理
-
Resize类:尺寸变换 CenterCrop类:中心裁剪
-
Regularize类:正则化,防止模型过拟合的技术
-
-
通过transforms.ToTensor思考两个问题
-
transforms该如何使用:用transforms中的某个类创建一个工具,使用工具
-
为什么需要Tensor数据类型:包装了神经网络所需要的一些数据参数
-
常见的Transforms
-
输入
-
输出
-
作用
-
图片有不同的格式,打开方式也不同
图片格式 打开方式 PIL Image.open() ——Python自带的图片打开方式 tensor ToTensor() narrays cv.imread() ——Opencv -
Python的call方法
-
在 Python 中,call 是一个特殊方法(也称为魔术方法或双下划线方法),用于使对象可以像函数一样被调用。当你在一个对象上调用 obj() 时,Python 解释器会查找该对象的call 方法并调用它
-
class MyClass: def __init__(self, value): self.value = value def __call__(self, x): return self.value + x obj = MyClass(10) result = obj(5) # 调用了 __call__ 方法 print(result) # 输出: 15
-
-
Compose的使用
-
Compose用于组合多个图像转换(transform)操作。通过 Compose,可以创建一个转换流程,这个流程可以按顺序执行多个图像处理操作,这些操作可以包括缩放、裁剪、归一化等,其需要的参数是一个列表,其元素类型是transforms类型。
-
格式Compose([transforms参数1,transforms参数
-
-
-
ToTensor的使用
-
from PIL import Image from torch.utils.tensorboard import SummaryWriter from torchvision import transforms writer = SummaryWriter("logs") img = Image.open("images/pytorch.png") print(img) # 可以看到类型是PIL # ToTensor的使用 trans_totensor = transforms.ToTensor() # 将类型转换为tensor img_tensor = trans_totensor(img) # img变为tensor类型后,就可以放入TensorBoard当中 writer.add_image("ToTensor", img_tensor) writer.close()
-
把 PIL Image 或 numpy.ndarray 类型转换为 tensor 类型(TensorBoard 必须是 tensor 的数据类型)
-
-
Normalize的使用
-
#Normalize的使用 print(img_tensor[0][0][0]) # 第0层第0行第0列 trans_norm = transforms.Normalize([0.5,0.5,0.5],[0.5,0.5,0.5]) # mean,std,因为图片是RGB三信道,故传入三个数 img_norm = trans_norm(img_tensor) # 输入的类型要是tensor print(img_norm[0][0][0]) writer.add_image("Normalize",img_norm)
-
用平均值/标准差归一化 tensor 类型的 image(输入)
-
图片RGB三个信道,将每个信道中的输入进行归一化
-
output[channel] = (input[channel] - mean[channel]) / std[channel]
-
设置 mean 和 std 都为0.5,则 output= 2*input -1。如果 input 图片像素值为0~1范围内,那么结果就是 -1~1之间
-
-
Resize的使用
-
#Resize的使用 print(img.size) # 输入是PIL.Image trans_resize = transforms.Resize((512,512)) #img:PIL --> resize --> img_resize:PIL img_resize = trans_resize(img) #输出还是PIL Image #img_resize:PIL --> totensor --> img_resize:tensor(同名,覆盖) img_resize = trans_totensor(img_resize) writer.add_image("Resize",img_resize,0) print(img_resize)#Normalize的使用 print(img_tensor[0][0][0]) # 第0层第0行第0列 trans_norm = transforms.Normalize([0.5,0.5,0.5],[0.5,0.5,0.5]) # mean,std,因为图片是RGB三信道,故传入三个数 img_norm = trans_norm(img_tensor) # 输入的类型要是tensor print(img_norm[0][0][0]) writer.add_image("Normalize",img_norm)
-
输入:PIL Image将输入转变到给定尺寸
-
序列:(h,w)高度,宽度
-
一个整数:不改变高和宽的比例,只单纯改变最小边和最长边之间的大小关系。之前图里最小的边将会匹配这个数(等比缩放)
-
-
-
RandomCrop()的使用
-
#RandomCrop()的使用 trans_random = transforms.RandomCrop(512) trans_compose_2 = transforms.Compose([trans_random,trans_totensor]) for i in range(10): #裁剪10个 img_crop = trans_compose_2(img) # 输入需要是PIL Image writer.add_image("RandomCrop",img_crop,i)
-
随机裁剪,输入PIL Image
-
参数size:
-
sequence:(h,w) 高,宽
-
int:裁剪一个该整数×该整数的图像
-
-
-
-
torchvision中数据集的使用
-
如何把数据集(多张图片)和 transforms 结合在一起。
-
标准数据集如何下载、查看、使用。
-
各个模块作用
-
(1)torchvision.datasets
如:COCO 目标检测、语义分割;MNIST 手写文字;CIFAR 物体识别
(2)torchvision.io
输入输出模块,不常用
(3)torchvision.models
提供一些比较常见的神经网络,有的已经预训练好,比较重要,分类模型、语义分割模型、目标检测、视频分类等会使用到
(4)torchvision.ops
torchvision提供的一些比较少见的特殊的操作,基本不常用
(5)torchvision.transforms
之前讲解过
(6)torchvision.utils
提供一些常用的小工具,如TensorBoard
-
本节主要学习torchvision.datasets,以及它如何跟transforms联合使用
-
CIFAR10数据集
#如何使用torchvision提供的标准数据集 import torchvision train_set=torchvision.datasets.CIFAR10(root="./dataset",train=True,download=True) #root使用相对路径,会在该.py所在位置创建一个叫dataset的文件夹,同时把数据保存进去。 test_set=torchvision.datasets.CIFAR10(root="./dataset",train=False,download=True) #数据集如何查看与使用 import torchvision train_set=torchvision.datasets.CIFAR10(root="./dataset",train=True,download=True) test_set=torchvision.datasets.CIFAR10(root="./dataset",train=False,download=True) print(test_set[0]) # 查看测试集中的第一个数据,是一个元组:(img, target) print(test_set.classes) # 列表 img,target = test_set[0] print(img) print(target) # 输出:3。输出为列表第几个类别。从0开始数,这里类别为cat列表第四个 print(test_set.classes[target]) # cat img.show() #如何把数据集多张图片和transforms结合在一起 #CIFAR10数据集原始图片是PIL Image,如果要给pytorch使用,需要转为tensor数据类型(转成tensor后,就可以用tensorboard了) import torchvision from torch.utils.tensorboard import SummaryWriter #把dataset_transform运用到数据集中的每一张图片,都转为tensor数据类型 dataset_transform = torchvision.transforms.Compose([ torchvision.transforms.ToTensor() ]) train_set=torchvision.datasets.CIFAR10(root="./dataset",train=True,transform=dataset_transform,download=True) #root使用相对路径,会在该.py所在位置创建一个叫dataset的文件夹,同时把数据保存进去 test_set=torchvision.datasets.CIFAR10(root="./dataset",train=False,transform=dataset_transform,download=True) # print(test_set[0]) writer = SummaryWriter("p10") #显示测试数据集中的前10张图片 for i in range(10): img,target = test_set[i] writer.add_image("test_set",img,i) # img已经转成了tensor类型 writer.close()
-
DataLoader的使用
-
dataset告诉程序中数据集的位置,数据集中索引,数据集中有多少数据(想象成一叠扑克牌)
-
dataloader加载器,将数据加载到神经网络中,每次从dataset中取数据,通过dataloader中的参数可以设置如何取数据(想象成抓的一组牌)
-
参数介绍
-
dataset:只有dataset没有默认值,只需要将之前自定义的dataset实例化,再放到dataloader中即可
-
batch_size:每次抓牌抓几张
-
shuffle:打乱与否,值为True的话两次打牌时牌的顺序是不一样。默认为False,但一般用True
-
num_workers:加载数据时采用单个进程还是多个进程,多进程的话速度相对较快,默认为0(主进程加载)。Windows系统下该值>0会有问题(报错提示:BrokenPipeError)
-
drop_last:100张牌每次取3张,最后会余下1张,这时剩下的这张牌是舍去还是不舍去。值为True代表舍去这张牌、不取出,False代表要取出该张牌
-
-
import torchvision
from torch.utils.data import DataLoader
#准备的测试数据集
test_data = torchvision.datasets.CIFAR10("dataset",train=False,transform=torchvision.transforms.ToTensor)
test_loader = DataLoader(dataset=test_data,batch_size=4,shuffle=True,num_workers=0,drop_last=False)
Pycharm小技巧
-
ctrl + / 可将代码注释掉。
-
按 ctrl 与函数名可直接查看其功能。
-
如何打开事件文件:
-
tensorboard --logdir=logs # logdir=事件文件所在文件夹名
-
搜索结构快捷键
File—> Settings—> Keymap—> 搜索 structure(快捷键 Alt+7)
-
Ctrl+P可以提示函数里需要填什么参数
-
两种读取图片的方式
-
#PIL IMAGE from PIL import Image img_path = "xxx" img = Image.open(img_path) img.show()
-
#numpy.ndarray(通过opencv) import cv2 cv_img=cv2.imread(img_path)
-