欢迎访问个人网络日志🌹🌹知行空间🌹🌹
文章目录
1.背景简介
ADE20K数据集是2016年MIT开放的场景理解的数据集,可用于实例分割,语义分割和零部件分割。利用图像信息进行场景理解 scene understanding和 scene parsing。
语义分割 Semantic Segmentation即最常见的任务,将图像的不同像素按对象类别 object category进行分类,实例分割Instance Segmentation不仅要识别不同物体所属的类别,还需识别出同类的不同物体。零部件分割 Part Segmentation是在识别出的物体上分割出不同部分所属的零部件类别,这对于理解场景帮助机器人与环境交互十分重要,如在某个 scene中分割出来 chair或者 cup,为了坐下或者拿起杯⼦需要找到 objects中对应的 parts,如 chair可以坐的部分, cup的杯柄, 以实现机器⼈与知行特定的任务。
已有分割公开数据集的现状:
- 类别有限, 且有些数据类别在实际⽣活中并不常⻅如
COCO和PASCAL数据集; - 包含的场景过少,如
Cityscapes仅包含城市街区的场景数据; Pascal-Context和SUN还不错, 但Pascal-Context主要包含其20个对象类的场景, ⽽SUN在对象级别的标注是不准确的。
2.ADE20K
1>ADE20K的官网:https://groups.csail.mit.edu/vision/datasets/ADE20K/index.html
2>ECCV 2016举办的Scene Parsing Challenge 2016http://sceneparsing.csail.mit.edu/index_challenge.html
3>tool kit github repositoryhttps://github.com/CSAILVision/ADE20K
ADE20K由 27000张图像组成,这些图像来自于SUN(2010年普林斯顿大学公开的数据集)和Places(2014年MIT公开的数据集)数据集,ADE20K中由超过3000个物体类别 category,其中很多图像组成物体的零部件的类别,以及组成零部件的零部件的类别,如 汽车的零部件 门,门上面的零部件 窗户。ADE20K中还标注了实例的 id,可用于实例分割。数据中的图像都进行了匿名化处理,做了人脸和车牌号的模糊,去除了隐私信息。
ADE20K的数据分布
- 训练集
Training set包含25574张完整标注图像 - 验证集
Validation set包含2000张完整标注图像 - 测试集
Test set还没有发布
ADE20K的数据组成
- 共包含
27574张图像 3688个类,类名取自WordNet(WordNet是由普林斯顿大学认识科学实验室在心理学教授乔治·A·米勒的指导下建立和维护一个词与词之间存在各种关系的英语字典)707868个对象193238个零部件
数据文件目录结构
.
└── ADE20K_2021_17_01
└── images
└── ADE
└── training
└── urban
└── street
├── ADE_train_00016869
│ ├── instance_000_ADE_train_00016869.png
│ ├── instance_001_ADE_train_00016869.png
│ ├── instance_..._ADE_train_00016869.png
├── ADE_train_00016869.jpg
├── ADE_train_00016869.json
├── ADE_train_00016869_parts_1.

本文介绍了ADE20K数据集,它是2016年MIT开放的场景理解数据集,可用于实例、语义和零部件分割。对比已有分割公开数据集,ADE20K优势明显。文中介绍了其官网、数据分布、组成、文件目录结构等,还提及在语义分割中的使用及相关下载地址。
最低0.47元/天 解锁文章
1万+

被折叠的 条评论
为什么被折叠?



