Imagenet数据集制作流程

Imagenet数据集一般适用于分类任务。

1. 一级目录:包括Train、Test、classes.txt和test.txt四个文件。

在这里插入图片描述

2. 二级目录:Train和Test文件的下一级目录。根据类别分别建立文件,例如本实验有4个类别,就分别创建四个文件。将每个类别的数据放到对应类别的目录中。

在这里插入图片描述

3. classes.txt

分别有两列,第一列是分类的文件名,就是上二级目录文件名,第二列是对应类别。
在这里插入图片描述

4. test.txt

test文件就是存放测试集数据,第一列就是存放一级目录对应下来的文件相对路径。第二列就是对应的类别。
在这里插入图片描述可以通过下程序自动写入

import os

# test文件夹对应路径
test_path = '/media/test'
test_txt = 'test.txt'
dirlist = os.listdir(test_path)
with open(test_txt, 'w') as f:  # 如果filename不存在会自动创建, 'w'表示写数据,写之前会清空文件中的原有数据!
    for i in os.listdir(test_path):
        print(i)
        for ii in os.listdir(os.path.join(test_path, i)):
            print(i+'/'+ii+" "+i)
            f.writelines(i+'/'+ii+" "+i+"\n")
f.close()
print("success")

至此,Imagenet数据集就制作完成了。

### Imagenet 数据集格式说明 Imagenet 数据集广泛用于图像识别领域中的模型训练和评估。其结构设计支持大规模的数据管理和访问效率优化。 #### 文件夹结构 整个数据集按照类别划分成多个文件夹,每个类对应一个独立的子目录[^1]。对于 ILSVRC(ImageNet Large Scale Visual Recognition Challenge),官方提供了不同版本的数据集,其中最常用的是 ILSVRC2012 版本。此版本包含了大约 1,000 类别的标注图片,每种类别下有数百张样本图[^4]。 #### 图像命名规则 在各个分类文件夹内部,所有的图像都遵循特定的命名约定。通常情况下,这些名称由两部分组成:前缀表示该图片所属的具体细分子项ID(WNID),后跟数字编号来区分同一类别内的不同实例。例如 `n01440764_1.JPEG` 表明这是一张属于 'tench' 这个物种的第一幅照片。 #### 存储形式 原始发布的 ImageNet 数据是以 `.tar` 或者 `.tgz` 形式的压缩包存在,里面包含了大量的 JPEG 格式的图像文件。为了便于研究人员快速获取所需资料,在解压之后会形成上述提到的标准目录树形结构[^3]。 #### 训练验证分割 ILSVRC 提供了明确的训练集与验证集分离机制。训练集中含有大量未见过的真实世界场景下的物体图像;而验证集合则用来衡量算法性能的好坏程度。两者之间不存在交集以确保公平公正地评价各种方法的有效性。 ```bash # 解压 tar.gz 文件到指定位置 tar -xvzf ILSVRC2012_img_train.tar.gz -C /path/to/train/ tar -xvzf ILSVRC2012_img_val.tar.gz -C /path/to/validation/ ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值