前言
需要用SSD算法对单类别的数据集进行目标检测,由于数据集是自己收集并标注的,所以只有YOLO格式的。
格式转换
SSD算法不能直接使用YOLO格式的数据集,需要将YOLO格式的数据集转化为VOC格式或COCO格式。作者是将YOLO格式转为VOC格式,因此YOLO转COCO格式在这里不再藐视。
清洗YOLO格式的数据集
由于SSD算法在VOC格式的数据集上不能接受Annotations文件夹下的xml文件中没有标注位置信息,且图片和标注文件的名称也要一一对应上(作者在这里踩了很大的坑!)。排查YOLO数据集中的labels文件夹下的txt文件内容是否为空的代码:
import os
def find_empty_txt_files(folder_path):
empty_files = []
for file_name in os.listdir(folder_path):
if file_name.endswith(".txt"):
file_path = os.path.join(folder_path, file_name)
with open(file_path, 'r', encoding='utf-8') as file:
content = file.read()
if not content.strip():
empty_files.append(file_name)
return empty_files
folder_path = 'D:\Code\pycharm\Test\VOC-v8-recent\labels' # 这里填入labels文件夹的