自定义制作python版本的CIFAR数据集
1、准备图像
(以制作小数据集为例,便于理解)
这里自定义制作的数据集只包含2个类:dog,parrot,每个类有121张图像。数据集共有242张图像,测试图像30张,训练图像212张。将数据集分为1个测试批次和2个训练批次。测试批次包含每个类的15张图像。每个训练批次包含106张图像,但是其中属于各个类的图像数量随机(即不同训练批次中相同类的图像数量不一定相等)。
图片的命名规则为 “label_类别名_编号.jpg”,这里规定,label为0时类别名为dog,label为1时类别名为parrot。
2、数据集理解
首先调整所有图像的大小,这里调整为256×256(img_dim=256)。
def img_resize(img_dir, img_dim):
'''Args:
img_dir: 该批次图像文件夹路径
img_dim: 调整后的大小
'''
img_resized_dir = img_dir + '_resize' # 调整后图像的保存路径
os.makedirs(img_resized_dir, exist_ok=True)
img_list = os.listdir(img_dir)
for img_name in img_list:
img_path = os.path.join(img_dir, img_name)