一.Python中两大常用函数
1.常用函数
(1)dir():能让我们知道工具箱以及工具箱中的分隔区有什么东西。
(2)help():说明书,能让我们知道每个工具是如何使用的,工具的使用方法。
2.实际运用
(1)控制台输入dir(torch),看看有什么工具区。
(2)控制台输入help(torch.cuda.is_available)看看如何解释。
二.PyTorch加载数据
1. Dataset和Dataloader两个类
(1)Dataset:提供一种方式去获取数据及label。
(2)Dataloader:为后面的网络提供不同的数据形式。
2. 如何构建数据集
(1) 蚂蚁蜜蜂分类数据集和下载连接
(2) 代码展示
from torch.utils.data import Dataset
from PIL import Image
import os
"""Dataset 类是 PyTorch 中的一个抽象类,用于表示数据集。
通过继承 Dataset 类并实现其中的两个方法 __getitem__() 和 __len__(),
我们可以构建自己的数据集类,并将其用于数据的加载和预处理。
在 MyData 类中,我们实现了 __getitem__() 和 __len__() 方法,
用于按照索引获取数据和计算数据集的长度。
具体来说:__getitem__() 方法用于获取数据集中指定索引位置的数据和标签,
__len__() 方法用于计算数据集的长度。"""
class MyData(Dataset):
#构造函数,获取图片地址
def __init__(self,root_dir,label_dir):
self.root_dir=root_dir
self.label_dir=label_dir
#获取图片所在的目录
self.path=os.path.join(self.root_dir,self.label_dir)
#把图片生成列表
self.img_path=os.listdir(self.path)
#魔术方法,在自定义的类中实现这个方法,可以使该类的实例对象能够像序列一样按照索引取值。
def __getitem__(self, idx):
#获取img_path路径下的图片名称
img_name=self.img_path[idx]
#获取图片的相对路径路径
img_item_path=os.path.join(self.root_dir,self.label_dir,img_name)
img=Image.open(img_item_path)
label=self.label_dir
return img,label
#获取图片列表长度
def __len__(self):
return len(self.img_path)
#蜜蜂蚂蚁数据集
root_dir="hymenoptera_data/hymenoptera_data/train"
ants_label_dir="ants"
bees_label_dir="bees"
ants_dataset=MyData(root_dir,ants_label_dir)
bees_dataset=MyData(root_dir,bees_label_dir)
train_dataset=ants_dataset+bees_dataset
(3)如何做出标准的数据集呢?
import os
root_dir="hymenoptera_data/hymenoptera_data/train"
target_dir="ants"
img_path=os.listdir(os.path.join(root_dir,target_dir))
label=target_dir
out_dir="ants_label"
for i in img_path:
filenname=i.split(".")[0]
with open(os.path.join(root_dir,out_dir,"{}.txt".format(filenname)),"w") as f:
f.write(label)
上述代码执行后,可以产生label文件
数据集通过Dataset加载后才能进行之后的操作。
参考链接