自动驾驶中的鸟瞰视图感知技术解析
1. 目标关系研究与时间融合
在自动驾驶领域,除了车辆通信,目标与目标之间的关系也备受关注。有研究提出通过比较目标之间的关系来定位目标深度,并通过图神经网络在目标图上进行消息传递。
为了缓解遮挡问题并估计目标的运动,时间融合是构建稳健鸟瞰视图(BEV)感知系统的有效方法。例如,BEVDet4D通过空间对齐和拼接来融合特征图,类似的基于拼接的方法也被应用于TIIM、FIERY和PolarFormer等研究中。而BEVFormer、PETRv2和UniFormer则利用注意力模块,从之前的BEV特征图或帧中融合时间信息,以更有效地建立不同时间戳下同一目标的关联。
2. 常用数据集
KITTI、nuScenes和Waymo Open Dataset(WOD)是BEV感知领域最具影响力的基准数据集。
- KITTI :是一个知名的自动驾驶多任务基准数据集,涵盖立体视觉、光流、视觉里程计、目标检测和3D跟踪等任务。它包含用于训练、验证和测试的图像以及相应的LiDAR点云,评估包括3D目标检测和BEV评估,并根据目标的大小、遮挡和截断程度设置了三个难度级别。
- nuScenes :是由Motional团队开发的公共大规模自动驾驶数据集,包含波士顿和新加坡的1000个驾驶场景,其中850个用于训练和验证,150个用于测试,每个场景时长20秒。传感器包括6个环绕摄像头、1个LiDAR和5个RADAR,图像分辨率为1600×900像素,同时还提供CAN总线数据和高清地图。
- Waymo Open Dataset <
超级会员免费看
订阅专栏 解锁全文
56

被折叠的 条评论
为什么被折叠?



