【Colab】如何将超大/超多文件上传到Colab并读取

0. 使用背景

用Colab做深度学习的时候需要用到一个很大的数据集,其中Annotation文件有15w+个(100+mb),图片文件有16w+个(24Gb),按照最普通的方式上传会出现文件丢失、速度慢、读取中断的问题。经过多种尝试总结出以下方法,目前可以解决部分问题,如有改进请多指点。

1. 将大量文件分成多个目录

将15w+个文件分成155个目录,其中每个目录包含1000个文件,若最后剩余不足1000个放在第155个目录。
代码:

# -- coding: utf-8 --
import os
import shutil


# Source directory containing the 100 files
source_directory = 'D:\Download\Annotations\Annotations'

# Destination directory where subfolders will be created
destination_directory = 'D:\Download\Annotations\Annotations_split'

# Create destination subfolders
for i in range(1, 156):  # 新建155个文件夹
    subfolder_path = os.path.join(destination_directory, f'Annotations_{
     
     i}')
    os.<
评论 8
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值