0. 使用背景
用Colab做深度学习的时候需要用到一个很大的数据集,其中Annotation文件有15w+个(100+mb),图片文件有16w+个(24Gb),按照最普通的方式上传会出现文件丢失、速度慢、读取中断的问题。经过多种尝试总结出以下方法,目前可以解决部分问题,如有改进请多指点。
1. 将大量文件分成多个目录
将15w+个文件分成155个目录,其中每个目录包含1000个文件,若最后剩余不足1000个放在第155个目录。
代码:
# -- coding: utf-8 --
import os
import shutil
# Source directory containing the 100 files
source_directory = 'D:\Download\Annotations\Annotations'
# Destination directory where subfolders will be created
destination_directory = 'D:\Download\Annotations\Annotations_split'
# Create destination subfolders
for i in range(1, 156): # 新建155个文件夹
subfolder_path = os.path.join(destination_directory, f'Annotations_{
i}')
os.<

最低0.47元/天 解锁文章
2048





