3D 点云目标检测
3D目标检测是计算机视觉领域中的一项任务,旨在从三维空间中的传感器数据(例如激光雷达点云或深度图像)中准确地检测和定位物体。与传统的2D目标检测不同,3D目标检测需要在三维空间中确定物体的位置(x、y、z坐标),同时还需要确定物体的尺寸和方向。这使得3D目标检测成为一项更具挑战性的任务。
即:物体的位置(x, y, z)、尺寸(x_size, y_size, z_size)以及大致方向(框的朝向角)
7-DoF(位置、尺寸、朝向角)、9-DoF(位置、尺寸、3个方向角)
KITTI 数据集
详细介绍 链接
KITTI数据集是一个广泛用于计算机视觉研究的公共数据集,其主要用于自动驾驶和机器人感知领域的任务。KITTI数据集由德国卡尔斯鲁厄理工学院和丰田科技研究所合作创建,命名来自“Karlsruhe Institute of Technology and Toyota Technological Institute at Chicago”。
该数据集包含多种传感器(如激光雷达、摄像头和GPS)采集的真实世界场景数据,涵盖了不同环境条件下的城市街道和乡村道路。KITTI数据集提供了多种任务的标注信息,其中最著名的任务之一是3D目标检测和定位。
场景:Road道路、City城市、Residential住宅、Campus校园、Person行人
类别:Car、Van、Truck、Pedestrian、Person_sitting、Cyclist、Tram、Misc、DontCare,其中DontCare标签表示该区域没有被标注
汽车、面包车、卡车、行人、坐着的人、自行车、电车、杂项
3D目标检测数据集由7481个训练图像和7518个测试图像以及相应的点云数据组成,包括总共80256个标记对象。
数据解析
1 真值数据
label是 n个15维的向量, 组成了8个维度的信息
列 | 字段名 | 含义 | 样例 |
---|---|---|---|
0 | Type | 类别 | Pedestrian |
1 | Truncated | 目标截断程度:0~1之间的浮点数表示目标距离图像边界的程度从0(non-truncated)到1(truncated) | 0、-1 |
2 | occluded | 目标遮挡程度:0~3之间的整数0:完全可见 1:部分遮挡 2:大部分遮挡 3:未知 | 0、-1 |
3 | Alpha | 目标观测角:[ − p i , p i ] | -1.73 |
4:7 | Bbox | 目标2D检测框位置:左上顶点和右下顶点的像素坐标 | 471.56 174.73 502.47 266.40 |
8:10 | Dimension | 3D目标尺寸:高、宽、长 | 1.53 0.61 0.73 |
11:13 | Location | 相机坐标系下目标3D框底面中心坐标:( x , y , z ) (x, y,z)(x,y,z), | -2.20 1.57 12.56 |
14 | Rotation_y | 相机坐标系下绕轴旋转的弧度,目标朝向角弧度 [ − p i , p i ] | -1.90 |
1)训练时主要用到的是类别信息(type) 和3d bbox 信息 (location, dimension, rotation_y).