点击下方卡片,关注“自动驾驶之心”公众号
戳我-> 领取自动驾驶近15个方向学习路线
今天自动驾驶之心为大家分享同济大学和香港科技大学最新的工作—Doracamom!多数据集SOTA!Doracamom实现首个Camera和Radar多模态融合的统一多任务感知算法框架。如果您有相关工作需要分享,请在文末联系我们!
自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一步咨询
论文作者 | Lianqing Zheng等
编辑 | 自动驾驶之心
写在前面&笔者的个人理解
自动驾驶技术是现代交通革命的前沿,备受关注。自动驾驶系统通常包括环境感知、轨迹预测和规划控制等组件,以实现自动驾驶功能。准确的 3D 感知是自动驾驶系统的基础,主要侧重于 3D目标检测和语义占用预测任务。3D 目标检测使用 3D 边界框来定位场景中的前景目标并预测类别和速度等属性,属于稀疏场景表示。
相比之下,语义占用使用细粒度体素表示来捕捉场景的几何和语义特征,这是一种密集场景表示形式。为了完成这些任务,通常使用摄像头、激光雷达和毫米波雷达等传感器来收集环境数据作为输入。在这些传感器中,LiDAR 采用飞行时间 (TOF) 原理,发射和接收激光束以生成密集点云,提供环境的高精度几何表示。然而,LiDAR 易受恶劣天气影响,且成本高昂。相比之下,摄像头和毫米波雷达更具成本效益,适合大规模部署。摄像头可以高分辨率捕捉丰富的颜色和纹理信息,但缺乏深度信息,容易受到天气干扰。
另一方面,毫米波雷达发射电磁波来探测目标距离、多普勒和散射信息,从而能够抵御天气条件。4D 成像雷达是传统毫米波雷达的一项进步,它不仅包含额外的高度信息,而且还提供比传统 2 + 1D雷达更高分辨率的点云。最近的研究表明,它在各种下游任务中具有相当大的前景。然而,与激光雷达相比,它的点云仍然稀疏且嘈杂。因此,跨模态融合对于有效弥补这些缺点至关重要,强调了整合来自摄像头和4D雷达的信息的必要性。
近年来,尤其是随着4D雷达数据集的出现,4D 雷达和摄像机融合研究在感知领域显示出巨大的潜力。目前,大多数主流融合技术都采用BEV架构,将原始传感器输入转换为 BEV 特征进行融合。对于占用预测任务,大多数研究集中在以视觉为中心或视觉和 LiDAR 融合上,因为占用预测任务需要细粒度的体素表示和语义信息。传统雷达缺乏高度信息,不适合 3D 占用预测。相比之下,4D 雷达通过访问高度信息和更高分辨率的点云提供了新的可能性。此外,将3D目标检测和占用预测作为两个关键感知任务集成在统一的多任务框架内,可以优化计算资源和效率,带来实质性的效益。

最低0.47元/天 解锁文章
1982

被折叠的 条评论
为什么被折叠?



