Imagenet 2012数据集处理(Linux系统)

本文详细介绍了ImageNet数据集的结构,包括train、val和test三个部分,并提供了shell脚本实现大规模tar文件的自动解压,以及利用PyTorch的ImageFolder函数读取训练数据的方法。
PyTorch 2.6

PyTorch 2.6

PyTorch
Cuda

PyTorch 是一个开源的 Python 机器学习库,基于 Torch 库,底层由 C++ 实现,应用于人工智能领域,如计算机视觉和自然语言处理

数据集结构,这里简单得说一下train,val,test文件结构:

train:

       1,000个tar文件,包含1,281,167张片,每个tar文件下为1,300张图片

val:

        50,000张图片

test:

         100,000张图片

首先是文件解压,从图像结构上看也就是训练集需要再次解压,至于验证集以及测试集都是解压好后为图片得格式。但是由于再训练集中tar文件个数为1,000个因此解压只能通过终端shell来写代码解决,shell代码我是没接触过,但是找了一些资料写了一段(亲测有效):

save_dir='your save dir'
for i in $(ls *.tar);
do 
mkdir ${i:0:-4};
file_dir=$save_dir"/"${i:0:-4}; # creat folder for each tar 
echo $file_dir;
tar -xvf $i -C $file_dir; # Extract the files to the specified path
done


这样就可以解决了,至于读取train文件可以采用pytorch的imagefold函数就可以了。

对于验证文件网上也是有一些资料介绍这里给出一个别人写好的脚本链接按照提示操作就可以了:https://github.com/huaifeng1993/ILSVRC2012

测试集我还没用上呢,不了解,后续找到相关介绍再加进来。

 

您可能感兴趣的与本文相关的镜像

PyTorch 2.6

PyTorch 2.6

PyTorch
Cuda

PyTorch 是一个开源的 Python 机器学习库,基于 Torch 库,底层由 C++ 实现,应用于人工智能领域,如计算机视觉和自然语言处理

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值