NVAutoNet:自动驾驶中快速且精确的360°三维视觉感知

作者 | 自动驾驶专栏 编辑 | 自动驾驶专栏

点击下方卡片,关注“自动驾驶之心”公众号

ADAS巨卷干货,即可获取

点击进入→自动驾驶之心【3D目标检测】技术交流群

b7b82fc6499bec5e20bf23289c4e71ee.png

  • 论文链接:https://arxiv.org/pdf/2303.12976.pdf

e2f5d999f84b021ebcb21c3752635d06.jpeg

摘要

be7d71375b200fdc6cb4627025c28f34.png

本文介绍了NVAutoNet:自动驾驶中快速且精确的360°三维视觉感知。3D世界的鲁棒实时感知对自动驾驶车辆而言是至关重要的。本文介绍一种用于自动驾驶的端到端的环视相机感知系统。本文的感知系统是一种新型的多任务、多相机网络,它将多组时间同步的相机图像作为输入,并且产生丰富的3D信号集合,例如障碍物的尺寸、方向和位置、停车空间和可通行空间等。本文的感知网络是模块化且端到端的:1)输出可以直接传给下游模块,而不需要任何后处理,例如聚类和融合——提高了模型部署和车内测试的速度;2)整个网络训练在单一阶段完成——提高了模型改进和迭代的速度。该网络经过精心设计,在NVIDIA Orin SoC(系统芯片)上以53fps的速度运行时具有高精度。该网络对传感器安装变化(在一定公差范围内)具有鲁棒性,并且由于其能够在训练和测试时将标定参数作为额外的输入,因此通过有效的模型微调,可以为不同车型快速定制。更重要的是,本文所提出的网络已经成功部署,并且在实际道路上进行测试。

141ca4a7e3e8dbf0af8710d065078d2f.jpeg

主要贡献

e4963e48b5bfb99b434f81729fde5a3f.png

本文的贡献如下:

1)使用硬件感知神经结构搜索(NAS)对图像和鸟瞰图(BEV)特征提取网络进行了很好的定制,以实现高精度和低延迟;

2)在特征层级上完成多相机融合,这结合了早期和晚期融合方法中最佳方法。这意味着,如果一个或者多个相机在推理过程中退出,并且融合在网络内完成,则该网络仍然能够正常工作。我们的机器学习融合策略不仅避免了手动调整参数,还利用了三角测量的原理——当从多个相机观测目标时,可以提供更高的检测精度;

3)本文提出一种新型的基于多层感知器(MLP)的两维到三维uplifting模型,不依赖于深度预测,并且明确地将相机内参和外参作为输入。一旦模型经过训练,网络就可以应用于给定车辆参数的不同相机配置;

4)所有感知任务(包括可通行空间感知)都被表示为检测任务,从而可以避免代价高昂且特殊的后处理,例如聚类、边界提取、曲线拟合等。

feace3dfc1a3daaddf6e3c8a216137e3.jpeg

论文图片和表格

28b146ae8c0fb271bec20eb73b9ad415.png

21dec68edc90b57e2274da41f3cf2121.png

3417c9f680ff2af24795e244868ec5cb.png

515a6ab94da933c487815cc4a0f37336.png

70353cec6c3738dfa5b59c3a7a0797bf.png

1690c231d32746ba19ecfd75e971e195.png

e5bd56cd0cd25157481806d3688d9954.png

e531781a09c4eb5fbea502e7699a4f04.png

b53636abfe168b885ba7eb9aee8dc6d4.png

d3e63de9b14037214bf21a2723965adb.png

072b3c28e90c9a54065eb90cd0deec69.png

3c39009e165221f9baa93b1fb874b4d3.png

3f8e0dd475b84c2ff7f92880fa2eaac7.png

87233722b1f22aa3ae4459556f53708a.png

23a1059c2e1d424e619d7d5e906bd1bd.png

b52e385964f6b8d1e792b464187fc943.png

b8c9179aa68554c69d35432cb744b8f2.png

28fc776ca0fc65225b8eedfd7d11fb3a.png

519d45fe46bc34dc9b43c710acee3711.png

4cdb79974c90ddc674ac8354d0614cd3.jpeg

总结

f88fc6311b540c3b0357d51cd91e1177.png

大多数现有的BEV感知工作在检测精度上进行高度优化,这通常需要大量的计算资源。因此,这些模型对于计算资源非常有限的自动驾驶等现实世界应用而言是不切实际的。此外,大多数现有的BEV感知数据集和基准与现实相差甚远。例如,常用的nuScenes数据集在70米范围内具有真值标记,而自动驾驶要求检测范围达到200-300米。这进一步使得现有的BEV感知模型不适合于自动驾驶车辆。在本项工作中,我们引入NVAutoNet,其中每个模块都经过很好的优化,以提供最高的准确率和延迟平衡。本文的技术贡献包括,举一些例子,小而强大的相机主干、高效的两维到三维uplifting、多任务学习、不同平台适配性以及针对不同任务的特定训练方法。因此,NVAutoNet能够在NVIDIA Orin SoC上以53FPS的速度比实时更快速地运行,同时获得足够高的精度。

将BEV感知扩展到真正的三维感知(例如三维体积占用感知)将实现更高级别的自主性,例如L4/L5自动驾驶。但是由于三维感知需要较大内存和计算消耗,因此这种扩展非常具有挑战性。远距离感知(例如,高达300米)对于提高驾驶安全性和舒适度是有必要的。全面的场景理解不仅预测目标,还要预测它们的关系,这与将自动驾驶从高精度地图中脱离出来更为相关。

视频课程来了!

自动驾驶之心为大家汇集了毫米波雷达视觉融合、高精地图、BEV感知、传感器标定、传感器部署、自动驾驶协同感知、语义分割、自动驾驶仿真、L4感知、决策规划、轨迹预测等多个方向学习视频,欢迎大家自取(扫码进入学习)

d84513081b44e49a2afa35d2b447d90f.png

(扫码学习最新视频)

国内首个自动驾驶学习社区

近1000人的交流社区,和20+自动驾驶技术栈学习路线,想要了解更多自动驾驶感知(分类、检测、分割、关键点、车道线、3D目标检测、Occpuancy、多传感器融合、目标跟踪、光流估计、轨迹预测)、自动驾驶定位建图(SLAM、高精地图)、自动驾驶规划控制、领域技术方案、AI模型部署落地实战、行业动态、岗位发布,欢迎扫描下方二维码,加入自动驾驶之心知识星球,这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频,期待交流!

a65cd8c7b0cf3bb0c04ed050a28dc188.jpeg

自动驾驶之心】全栈技术交流群

自动驾驶之心是首个自动驾驶开发者社区,聚焦目标检测、语义分割、全景分割、实例分割、关键点检测、车道线、目标跟踪、3D目标检测、BEV感知、多传感器融合、SLAM、光流估计、深度估计、轨迹预测、高精地图、NeRF、规划控制、模型部署落地、自动驾驶仿真测试、产品经理、硬件配置、AI求职交流等方向;

0cd14f0cfc06ced2870910e072258aa0.jpeg

添加汽车人助理微信邀请入群

备注:学校/公司+方向+昵称

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值