(1)背景:
在训练模型的时候,使用到的文档数量很多,为了减少后期的负荷,将文档按照大小过滤(比如,size小于10KB的文件删掉)
(2)代码:
import os
folder = r"/tmp/test" #指定文件夹
for dirpath,dirnames,filenames in os.walk(folder):
for file in filenames:
file_tmp = os.path.join(dirpath, file)
file_size = os.path.getsize(file_tmp)
if(file_size < 10240): #size<10KB的话,删除文件
os.remove(file_tmp)
本文介绍了一种使用Python脚本批量删除指定文件夹中大小小于10KB的文件的方法,通过os模块的os.walk()遍历文件夹,并利用os.path.getsize()检查文件大小,以优化训练模型前的数据预处理步骤。
5844

被折叠的 条评论
为什么被折叠?



