(二)Cityscapes数据集简介

最新推荐文章于 2025-10-24 12:48:18 发布

原创

最新推荐文章于 2025-10-24 12:48:18 发布 · 1.2w 阅读

31 ·

CC 4.0 BY-SA版权

文章标签：

#计算机视觉 #人工智能

本文详细介绍了Cityscapes数据集，包括其来源、特点（如19类语义分割、立体视觉、像素级标注）、组成部分（精细标注、粗略标注、3D检测与行人检测），并探讨了数据集在语义分割模型中的挑战。

欢迎访问个人网络日志🌹🌹知行空间🌹🌹

文章目录

1.简介

Daimler AG现在称为Mercedes-Benz研发中心和达姆施塔特工业大学（德语：Technische Universität Darmstadt）研究人员开放的数据集，论文发表在2016年的CVPR。cityscapess采集自德国及附近国家的50个城市，包括了春夏秋三个季节的街区场景，且使用双目相机的获取了立体视觉视频序列。研究人员认为雨雪等极端天气需要特殊的处理方法和数据集进行研究，因此在cityscapess数据集中没有采集此类数据。数据采集使用的是1/3英寸 CMOS 2MP sensors (OnSemi安森美
AR0331)，帧率为17的卷帘相机，包括左目和右目，基线距离22cm，采集的是色彩深度为16位的的HDR图像。

数据集有选自27个城市的5000张图像进行了pixel-level像素级的语义和实例标注，可用于训练语义分割网络，这5000张中的每一张都取自于对应的一个包含30帧的视频序列的第20帧，剩余23个城市的20000张图像进行了粗略标注，这20000张图像是每间隔20s或汽车行驶20m采集一张得到的。精标一张数据平均1.5h，粗标一张数据7min。不同的标注人员对选出来的30张数据进行重复标注，像素一致性达96%,去除可标注为unclear的类别后，像素一致性达98%。

分割数据集包含了33个类,因部分类别数据量过于稀少，在验证数据集上，只有19个语义分割类，因此要根据*_polygons.json文件生成*_labelTrainIds.png用以训练语义分割网络，可借助cityscapesScripts工程中的cityscapesscripts/preparation/createTrainIdLabelImgs.py脚本，在语义分割的5000张图像的标注文件中，转换后训练时设置成ignore_indexe的类别255的像素个数分布为max: 1105427.0, min: 114462.0, avg: 263878.772，图像大小是2048x1024,255的占比最高大于50%。有个问题就是，使用语义分割模型测试输入一张图像，其输出每个像素的类别，这些类别都在0-18上，是无法预测出255这种类别的，对于在标签文件上本来属于255类别的像素也会被预测成0-18,这是否会影响模型的推理输出呢？