点击下方卡片,关注“自动驾驶之心”公众号
戳我-> 领取自动驾驶近15个方向学习路线
论文作者 | Runwei Guan等
编辑 | 自动驾驶之心
论文链接:https://arxiv.org/abs/2405.12821
论文作者:集萃深度感知技术研究所,利物浦大学,南安普顿大学,西交利物浦大学,香港科技大学(广州),Vitalent Consulting
具身感知对于智能车辆和机器人至关重要,可以实现更自然的交互和任务作业。然而,这些进步目前几乎聚焦于视觉层面,很少关注使用 3D 建模传感器,这限制了对具有多粒度特征的环境目标的充分理解。近年来,4D毫米波雷达作为一种具有前景且成本低廉的感知传感器,可提供比传统雷达更密集的点云,并具备一定程度的感知目标的语义和物理特征的能力,从而提高感知系统的可靠性。为了促进 3D Visual Grounding在基于自然语言驱动的毫米波雷达上下文理解的发展,我们构建了第一个数据集 Talk2Radar,它桥接了自然语言与毫米波雷达进行3D Referring Expression Comprehension (REC)。Talk2Radar 包含 8,682 个样本以及 20,558 个文本提示目标。此外,我们提出了一种新颖的模型,即用于点云层面3D REC的T-RadarNet,与同类模型相比,在 Talk2Radar 数据集上实现了最先进的性能,其中,我们设计了Deformable-FPN 和门控图融合Gated Graph Fusion, 可实现精细化的点云特征建模以及雷达和文本特征之间的高效跨模态融合。此外,我们进行了全面的实验以深入了解基于雷达的3D REC。
我们即将在 https://github.com/GuanRunwei/Talk2Radar 中开源项目。
背景简述
毫米波雷达作为一种全天候、低成本的感知传感器,可以捕获目标的距离、方位角、速度、运动方向、RCS等,已普遍应用于自动驾驶、机器人导航等感知领域和协同智能交通系统(C-ITS)。为提高检测精度,近年来4D雷达横空出世,解决了之前3D雷达无法测高的限制,并显著增加了点云密度。这使得捕获的目标能够包含更多可利用的特征,从而实现更富有成效的场景理解,并在陆地和水域不同下游任务中获得了更好的性能。
与此同时,随着视觉语言模型(VLM)在具身智能和以人为中心的智能驾驶感知系统方面的最新进展,VLM和多模态大语言模型(MM-LLM)使智能车辆和机器人能够理解人类命令, 感知周围的环境,并做出相应的决策。然而,这些进步主要聚焦于视觉领域。虽然一些研究侧重于 3D Visual Grounding,但这些工作主要针对 RGB-D 和 LiDAR。然而,对于自动驾驶和导航,我们认为referring prompts不能只强调位置关系、形状和类别,还应该包括目标运动特征,而这正是雷达的强项。雷达不受恶劣天气的影响,可以提供数值化的距离、速度、运动和方位角,且RCS和点云分布一定程度上可提供定性的语义特征,这使得在刻画目标特性时具有很大的灵活性,允许包括定性和定量特征。随着高分辨率4D雷达的出现,这一尚未探索的领域有望得到解决。我们的目标是开拓并释放4D雷达在基于自然语言引导的多模态3D目标定位方面的潜力,准确地说,人可以通过描述4D雷达可以感知到的目标特征来定位特定3D对象。
在此基础上,我们引入了 3D Referring Expression Comprehension(REC),也称为开放词汇3D对象检测,它根据文本描述定位特定对象,并建立了第一个基于雷达的3D Visual Grounding数据集Talk2Radar以及相应的基准。Talk2Radar 基于著名的 4D 雷达数据集 View of Delft (VoD)构建,其中每个样本包含雷达点云、LiDAR 点云、RGB 图像和文本参考提示。此外,Talk2Radar还具有以下两个特点:(i) 文本提示可指代一个或多个目标,更加灵活与反映现实情况。(ii) 文本提示中包含雷达可感知的目标属性,同时排除视觉可感知的任何特征。此外,与Talk2Radar一道,我们提出了一种新颖的雷达-文本融合模型,T-RadarNet,用于 3D Visual Grounding。在T-RadarNet中,(i)我们提出了Deformable-FPN来增强不规则雷达点云建模;(ii)为了有效地融合雷达和文本的特征,我们设计了一个名为门控图融合(GGF)的模块,该模块基于图和门控机制来进行邻域特征关联和跨模态特征匹配。值得注意的是,GGF 可以移植到大多数 PC 检测器上,以实现 3D Visual Grounding,并具有很好的通用性。我们的贡献总结如下:
本文提出了第一个基于 4D 雷达的 3D REC 数据集 Talk2Radar 及其相应的研究基准。
提出了一种名为 T-RadarNet 的新型 3D REC 模型,用于基于雷达的 3D 视觉接地,该模型建立在设计的 Deformable-FPN 和 GGF 的基础上。
进行了全面的实验来分析和推进基于 4D 雷达的3D REC,从而也促进了对该领域的整体理解。
我们将会开源一个简单易用的基于MMDetection3D专为交通场景下的点云传感器量身定制的3D REC框架。
Talk2Radar数据集
A. 数据收集与标注
得益于雷达感知领域著名的 VoD 数据集,该数据集专为自动驾驶感知而设计,配备了 ZF FRGen21 4D 毫米波雷达,以及激光雷达和立体相机。我们可以根据各种道路对象的精细注释的 3D 边界框与多传感器视角设计文本提示。图1显示了样本,而图
则展示了整个注释过程。
(1) 选择候选对象. 首先,基于自主开发的用于注释的图形用户界面(GUI),我们用投影到相机平面的 3D 边界框呈现图像以方便观察。然后,标注者点击并选择图像中想要描述的候选框区域。相应的 3D 边界框注释将被保存。在这里,标注者优先选择雷达视场角 (FoV) 内的对象。
(2) 检查注释和写入提示. 根据选择的 3D 边界框,标注者首先检查边界框在位置或类别上是否存在错误。在注释过程中,我们还将补偿矢量速度和平面深度附加到相应的 PC 旁边以供参考。考虑到检测误差和物体尺寸,我们通常将物体深度描述为一个范围而不是一个固定值。对于单个对象,注释器会考虑类别、相对于自车的空间位置、距离、速度、运动趋势、大小等属性,但不包括颜色以及雷达无法感知的其他信息。如果选择多个目标,标注者还会考虑它们的空间关系。
(3) 丰富注释并纠正文本偏差. 为了避免文本提示中的主观性和错误,我们在初始注释后实施了涉及两个额外标注者的协作审查和修订过程。此过程用于增加描述的多样性,以确保后续相关模型的稳健性和泛化性。此外,它还允许对初始标注者所犯的主观错误进行讨论,然后在达成共识后进行更正。
B. 数据集统计
我们从文本提示和指代目标方面阐述定量统计。
(1) 文本提示. 如 图3(a) 所示,(i)词云中的高频词包括定性和定量描述,丰富的混合词汇受益于 4D雷达对物体的多维感知,捕捉目标速度、运动方向、深度等定量特征,同时还能感知一定程度的语义特征。这使得能够对特定对象进行更详细的描述,并允许基于单个或多个目标属性进行细粒度的目标聚类和过滤。(ii)如图3(c) 所示,Talk2Radar中的提示长度分布较广,允许模型学习广泛的句型。这也增加了任务难度,因为模型必须处理不同模式、结构和长度的文本提示,正确理解其隐藏的语义表示,并对复杂的雷达点云上下文场景进行查询。
(2) 指代对象. (i)Talk2Radar 总共包含 20,558 个参考对象。12个类别的目标数量分布以及每个目标类别的平均点云数量,包括雷达(累积1、3和5帧)和LiDAR。汽车、行人和骑自行车者是 Talk2Radar 中的三个主要参考类别。显然,虽然4D雷达的分辨率有所提高,但点云密度与LiDAR相比仍然存在差距。第三,如 图3(b) 所示,在Talk2Radar中,每个样本的所指对象数量范围为1到11,这对理解复杂场景提出了挑战。具体来说,模型需要自适应地过滤掉提示中的干扰词,并关注参考对象的关键特征,同时在不规则点云上下文中执行多个感兴趣区域(ROI)查询。
C. 评测指标和子集设置
评测指标. 我们采用平均精度(AP)和平均方向相似度(AOS),包括整个注释和驾驶走廊区域的3D边界框mAP和mAOS,与VoD一致进行综合评估。
子集设置. 我们将 Talk2Radar 分为三个子集,与 VoD 共享相同的 ID。用于训练、验证和测试的子集数量分别为 5139、1296 和 2247。由于VoD的测试集注释不公开,因此本文在验证集上评估模型。
T-RadarNet简述
图4 显示了 T-RadarNet 的详细架构。给定雷达点云和文本提示作为输入,T-RadarNet在自然语言的引导下给出特定目标的 3D grouding。(i),对于初始点云特征提取和建模,考虑到高效计算和可扩展性,我们采用pillar编码器将3D点云基本表示为2D伪图像。然后,简洁的第二主干网\citeyan2018second}是提取三级雷达PC特征{, , } 具有多尺度。(ii),我们采用基于预训练transformer的动态语义编码器(例如 ALBERT)进行文本提示的自适应上下文表征。(iii),考虑到多径杂波对雷达点云环境这一干扰对密集文本语义特征与稀疏点云对齐和融合提出了重大挑战。为了解决这个问题,我们设计了一种基于图的策略,称为门控图融合(GGF),它将雷达特征空间中的 ROI 关联起来,并在雷达和文本之间应用逐点跨模式门控,产生与 文本。然后,将三阶段PC特征和文本特征 输入GGF-FPN,GGF-FPN由用于跨模态融合的GGF模块组成,并输出三尺度条件雷达特征。(iv),考虑到雷达 PC 的不规则性和稀疏性,传统卷积很难对其进行精细建模。因此,我们提出了基于可变形卷积的 Deformable-FPN,它提供了通过文本提示查询的高质量点云特征到grounding head进行定位。(v),考虑到anchor-free检测器的高效,我们采用基于centerpoint的检测头并采用基于可变形卷积的可分离定位头进行文本提示的点云目标定位。
实验结果
首先T-RadarNet取得了非常好的效果,其次,对于融合模块,我们发现MHCA的表现不尽人意,尤其是对于雷达而言。5帧累积的radar数据取得了与LiDAR非常接近的结果。
我们统计了对于含有motion,depth以及velocity特征相关的描述,发现对于velocity而言,radar的表现远胜于lidar;对于motion而言,radar能够基于自然语言提示找到对应目标的准确率也大于LiDAR,但差距不大。而对于深度相关的prompt,LiDAR还是超过了radar。
抛开正确预测,我们发现由于radar的鬼影以及杂波的干扰导致目标对于目标的文本描述语义会产生“误解”,存在较为严重的假阳性。
总结
本文提出了一项新颖的任务:基于 4D 毫米波雷达的 3D REC 指代表达理解,旨在通过全天候运行的低成本雷达传感器实现具身智能和交互式感知。此类任务的第一个数据集 Talk2Radar 是通过充分利用 4D 毫米波雷达的目标检测特性而提出的。Talk2Radar 包含丰富的文字提示和对象分布,以及 LiDAR数据。通过大量的实验,我们提出了一种高效的基于雷达的 3D REC 模型 T-RadarNet,提供了相应的基准。在T-RadarNet中,我们设计了一个有效的模块Gated Graph Fusion,用于文本和4D雷达点云特征的对齐和融合。此外,还提出了 Deformable FPN 来充分建模不规则和稀疏的点云特征。基于上述所有贡献,我们的目标是提高 4D 雷达的交互式感知能力,以实现自动驾驶中的环境理解。
开放讨论
由于毫米波雷达并不属于视觉传感器,因此我们更愿意将该任务称为3D REC而非传统多模态任务Visual Grounding。
投稿作者为『自动驾驶之心知识星球』特邀嘉宾,欢迎加入交流!
① 全网独家视频课程
BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、cuda与TensorRT模型部署、大模型与自动驾驶、Nerf、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码即可学习)
网页端官网:www.zdjszx.com
② 国内首个自动驾驶学习社区
国内最大最专业,近3000人的交流社区,已得到大多数自动驾驶公司的认可!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知(2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、大模型、端到端等,更有行业动态和岗位发布!欢迎扫描下方二维码,加入自动驾驶之心知识星球,这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频
③【自动驾驶之心】技术交流群
自动驾驶之心是首个自动驾驶开发者社区,聚焦感知、定位、融合、规控、标定、端到端、仿真、产品经理、自动驾驶开发、自动标注与数据闭环多个方向,目前近60+技术交流群,欢迎加入!扫码添加汽车人助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)

④【自动驾驶之心】全平台矩阵

基于4D雷达的Talk2Radar:推动3DVisualGrounding与T-RadarNet在自动驾驶中的交互式感知
1107

被折叠的 条评论
为什么被折叠?



