Abstract
基于相机的目标检测与自动驾驶最近几年整体发展迅速。部分这些改进可以归因于公共数据集,使得全世界的研究者可以利用这些数据进行研究,避免个体队伍花费大量的时间收集与标注数据。当前车辆检测数据集与方法通常专注于解决坐标轴平行的bbox或者语义分割任务。坐标轴平行bbox通常会对车辆大小表示失真并且引入临近的道路内容。语义分割会更加精确,但是他们更难处理与应用在轨迹规划系统中。我们因此提出了一个用于基于图像的车辆检测数据集boxy dataset。Boxy是一个拥有199万标注数据,20万图像的最大的公开车辆检测数据集,包括车辆驾驶时阳光、雨水、夜间驾驶等情形。如果可以的话,车辆的标注会被分割成多个可见面,给人一种3Dbbox的感觉,使得表达更加精确。500万像素的图片最小几个像素的标注使得这个数据集特别具有挑战性。通过Boxy,我们为边界框、多边形和实时检测提供了初始的基准测试挑战。所有的基准都开源了,使得可以增加额外的度量方式与基准。
1、Introduction
感知系统特别是基于视觉的目标检测系统是自动驾驶的不可分割的组成部分。摄像机图片通常可以提供比其它传感器例如雷达或者激光雷达更高的分辨率。这使得我们可以完全理解车辆周边的情况并且在远距离进行车辆检测。颜色信息例如刹车灯与转向灯可以用来提供额外的属性信息,这些信息是其他传感器提供不了的。
公开数据集与基准可以为计算机视觉与车辆检测带来很多可能的发展。

1.1Vision Datasets
最优影响力的数据集之一ImageNet Large Scale Visual Recognition Challenge(ILSVRC)【25】见证了短短6年时间Top5准确率从28.2%下降到约3%。在相同的时间内,Pasca Visual Object Classes(VOC)【6】数据集与ILSVRC上的目标检测部分目标检测准确率也取得了巨大的提升【25】。这些数据集包含了几万到上百万标注样本,使得研究人员可以训练全新、更大、更有效的神经网络模型例如Faster-RCNN【22】,SSD【15】,YOLO【20,21】,与各种模型变体。除了用于目标检测的bbox标注外,Pascal VOC【6】与Micosoft Common Objects in Context(COCO)【14】提供了像素级别的标注。这使得我们可以创建模型用于进行像素级别的目标位置精确估计【16,23,1】。驾驶辅助系统与全自动车辆是这些目标检测与语义分割领域进步的理想应用。
1.2车辆检测数据集
对于自动驾驶应用来说对其它交通参与者快速、准确、可靠的检测需求相当紧迫。这样的需求已经牵引出许多基于视觉的车辆检测公开数据集【7,5,32,29,2,19,24,17,31,28,29】。KITTI视觉基准套件【7】是其中一个最大的数据集为自动驾驶问题提供例如测距等多样化标注。在KITTI数据集中,车辆是以3Dbbox的形式标注的。Cityscapes【5】提供了5000张图片的像素级完整标注与20000张粗标注的图像。BDD100K数据集包含了100000样本,标注了2Dbbox与像素级标注。
此外,还存在一些有平行坐标轴标注bbox(AABB)的数据集,例如Toyota Motor Europe motorway Dataset(TME)【2】,two Udacity datasets【31】,the Nexar Challenge2【17】,Mapillary Vistas【19】与Lisa Vehicle Dataset【28】。见表2中各自数据集大小。

Boxy是一个针对高速公路车辆检测的大型计算机视觉数据集,包含200,000张样本,199万个3D和2D边界框标注。相比传统AABB,Boxy的类3D标注提供更精确的车辆定位。数据集涵盖多种天气和交通条件,具有高分辨率和挑战性的目标大小。该文还介绍了Boxy数据集的关键指标、基准测试和车辆检测基线方法。"
124159972,11771928,LeetCode 链表问题:最长连续序列解法,"['算法', 'leetcode', 'java']
最低0.47元/天 解锁文章
581





