制作coco类型数据集

COCO格式数据集简介

COCO数据集是一个大型的、丰富的物体检测,分割和字幕数据集。这个数据集以scene understanding(场景理解)为目标,主要从复杂的日常场景中截取,图像中的目标通过精确的segmentation(分割)进行位置的标定。图像包括91类目标,328,000影像和2,500,000个label。是目前为止有语义分割的最大数据集,提供的类别有80类,有超过33万张图片,其中20万张有标注,整个数据集中个体的数目超过150万个。

LabelMe版(本地标注)

第一步:整理图片

根据需求按照自己喜欢的方式收集图片,图片中包含需要检测的信息即可,可以使用ImageNet格式数据集整理图片的方式对收集的图片进行预处理。

整理图片(目标检测)
|---images
    |----test
        |----xxx.jpg/png/....
    |----train
        |----xxx.jpg/png/....
    |----valid
        |----xxx.jpg/png/....

数据划分的方法并没有明确的规定,不过可以参考两个原则:

  1. 对于小规模样本集(几万量级),常用的分配比例是 60% 训练集、20% 验证集、20% 测试集。

  2. 对于大规模样本集(百万级以上),只要验证集和测试集的数量足够即可,例如有 100w 条数据,那么留 1w 验证集,1w 测试集即可。1000w 的数据,同样留 1w 验证集和 1w 测试集。

第二步:标注图片

使用熟悉的标注方式标注图片,如可使用LabelMe批量打开图片文件夹的图片,进行标注并保存为json文件。

  • LabelMe:麻省理

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值