深度学习过程中,数据的标注一般是由标注工程师完成,因为一些未知的失误或者数据传输存在的问题,导致图片损失或者xml标注文件存在错误,极易导致训练失败,让我们无法正确的完成训练,如下所示:
Corrupt JPEG data: 469 extraneous bytes before marker 0xd9
因此,在训练开始之前做数据清理(data cleaning)就显得十分必要。
数据处理–图片清理:
图片不完整的判定
def check_valid_image(sample_root, img_format=['.jpg', '.png', '.JPG', 'jpeg']):
for root, _, file_lst in os.walk(sample_root):
pbar = tqdm(file_lst, file=sys.stdout)
for file in pbar:
if os.path.splitext(file)[-1] in img_format:
category

本文介绍了在深度学习中数据预处理的重要性,特别是针对图片和XML标注文件的错误检查。通过提供`check_valid_image`和`check_xml_is_valid_full`两个函数,分别用于检测图片的完整性和XML文件的正确性。这些函数能识别并删除不完整或格式错误的图片和XML,确保训练数据的质量,从而避免训练失败。
最低0.47元/天 解锁文章
3万+

被折叠的 条评论
为什么被折叠?



