PS:基于小土堆视频学习https://www.bilibili.com/video/BV1hE411t7RN?p=6&vd_source=22926f91481026cd10af799bb45e448b
1、Dateset
Dateset就是我们的目标数据,告诉我们如何获取数据,距离:从多种类型的数据中,提取某一类数据,并且可对数据定义编号;
(提供一种数据获取方式及其label)
2、DateLoader
DateLoader:可以对一堆数据进行打包,为网络提供不同的数据形式
神经网络会对数据迭代多次,通常情况的下,数据集分:验证数据集和训练数据集;
from torch.utils.data import Dataset
import cv2
from PIL import Image #需要注意区分大小写
import os #获取到所有图片的地址
class MyDate(Dataset): #继承Dataset类别
def __init__(self,root_dir,label_dir): #初始化,为整个class提供全局变量
self.root_dir = root_dir
self.label_dir = label_dir
self.path = os.path.join(self.root_dir,self.label_dir)
self.img_path = os.listdir(self.path)
#获取蚂蚁这个文件夹中的所有图片地址
def __getitem__(self, idx): #获取其中的每一个
img_name = self.img_path[idx]
img_item_path = os.path.join(self.root_dir,self.label_dir,img_name) #每一个图片的位置
img = Image.open(img_item_path)
label = self.label_dir
return img,label
def __len__(self): #确定这个数据集到底有多长
return len(self.img_path