
自建AI数据集
文章平均质量分 67
深度学习离不开训练数据集的准备
星空•物语
心之所向,不留白
展开
-
自建数据集系列:实例分割mask->语义分割mask->扩增mask
前言在之前文章,解决了实例mask->二值mask的处理:但在实际的模型处理中,语义分割占有重要的比重,可剔除不确定类别,进而生成对应图片融入类别信息的语义mask:方法addClassColor.pyCOCO_CATEGORIES = [ {"color": [220, 20, 60], "isthing": 1, "id": 1, "name": "BatFish"}, {"color": [119, 11, 32], "isthing": 1, "id": 2, "n原创 2021-12-23 18:44:53 · 5375 阅读 · 2 评论 -
自建数据集系列:cocoJson数据集统计分析
前言之前文章中放了这么一张统计的图,虽然给出了每个类别对应的实例数,一看就是及其不均衡,不利于分类。但这里实例的图片分布并没有,不利于后续的不均衡扩增。实现cocoJsonStat.pyimport jsonfrom unicodedata import categoryimport tqdmimport osjson_file = "COD10K_CAM_coco/annotations/instances_train2017.json"cnt_dict = {}with ope原创 2021-12-21 18:33:55 · 996 阅读 · 0 评论 -
自建数据集系列:xml标注文件的节点、属性、文本的修正
前言不知为何,labelImg标注文件xml的width与height的节点文本都为0造主要参考的是这篇文章:https://blog.youkuaiyun.com/weixin_42784169/article/details/111401802# -*- coding: utf-8 -*-from xml.etree.ElementTree import ElementTree,Elementdef read_xml(in_path): '''''读取并解析xml文件 in_p原创 2021-12-02 15:27:11 · 432 阅读 · 0 评论 -
自建数据集系列:COCO格式->YOLO格式
前言生成的总体目录如下:在labels中,是图片x.jpg对应的目标标注信息 x.txt1 0.38875 0.229167 0.391875 0.19 0.400625 0.183333 0.396875 0.175 0.405625 0.156667 0.40375 0.150833 0.398125 0.15 0.403125 0.113333 0.4225 0.105833 0.44625 0.1075 0.45375 0.114167 0.461875 0.14 0.461875 0.16原创 2021-12-01 11:23:25 · 3735 阅读 · 1 评论 -
自建数据集系列:双模图片数据与对应标注文件的命名对齐
问题由来,先看一波最初的标注文件,每组数据都包含一个json标注文件,一个红外图片,一个可见光图片。这三个文件名中有无"(1)",根本没有规律,这直接导致后续的处理变得很艰难。原创 2021-12-01 10:32:21 · 423 阅读 · 0 评论 -
自建数据集系列:从RGB->二值mask->coco格式
前言前文说到,mask可以转labelme,然后再转coco。但对于实例级的mask事情变得有点不同,需先将RGB的mask拆解为二值mask然后进行直接操作,省略labelme这一步骤。image文件夹下annotations文件夹下RGB转二值maskimport cv2import numpy as npimport os, glob part = "test"def rgb2masks(label_name):# Camouflaged:# COD10K-CAM-S原创 2021-11-23 11:24:42 · 8206 阅读 · 6 评论 -
自建数据集系列:从labelImg格式->txt格式(YOLO格式、ICDAR2015格式)
文章目录1.从labelImg格式->txt格式(YOLO格式、ICDAR2015格式)前言xml转YOLO格式xml转ICDAR2015格式2.从二值mask->labelme格式->coco格式3.从labelme格式->VOC格式1.从labelImg格式->txt格式(YOLO格式、ICDAR2015格式)前言xml格式虽然在检测领域是比较常用,但是吧也并非绝对xml转YOLO格式xml格式<?xml version="1.0" ?><annotation&原创 2021-11-20 11:51:46 · 3882 阅读 · 0 评论 -
自建数据集系列:从labelme格式->VOC格式+从二值mask->VOC格式
VOC训练、验证划分splitData.pyimport os import random trainval_percent = 1.0train_percent = 0.8xmlfilepath = 'VOC2007/Annotations' txtsavepath = 'VOC2007/ImageSets/Main' total_xml = os.listdir(xmlfilepath) num=len(total_xml) list=range(num)原创 2021-11-19 23:12:40 · 5024 阅读 · 1 评论 -
自建数据集系列:从二值mask->labelme格式->coco格式
总共有3类数据,每类文件夹下对应的就是jpg和对应的json标注文件,借助splidata_labelMe.py将每类切分为训练测试两部分原创 2021-11-18 21:55:57 · 8137 阅读 · 12 评论