《深度学习-如何提高数据集质量》
深度学习爬虫爬了大量的图片,但的图片大小残次不齐,下面的代码目的是删除小于20K的图片
import os
DirList = [
'/home/king/PycharmProjects/nsfw_data_scrapper/raw_data/drawings',
'/home/king/PycharmProjects/nsfw_data_scrapper/raw_data/hentai',
'/home/king/PycharmProjects/nsfw_data_scrapper/raw_data/neutral',
'/home/king/PycharmProjects/nsfw_data_scrapper/raw_data/porn',
'/home/king/PycharmProjects/nsfw_data_scrapper/raw_data/sexy']
for path in DirList:
print(path)
tall = 0
small = 0
for filename in os.listdir(path):
fullName = os.path.join(path, filename)
size = os.path.getsize(fullName)
if size < 20 * 1024:
small = small + 1
os.remove(fullName)
tall = tall + 1
print(tall, small, small/tall * 100)
这里小于20K的就会删除,最后计算一个小于20K文件的百分比。但第一次运行的时候先不要运行remove语句,毕竟20K的闸值需要你自己设定的。