一、论文简介
论文网址:https://arxiv.org/pdf/2208.03849v1.pdf
DOI号:10.48550/arXiv.2208.03849
发表时间:2022/08/08(代码未开源)
作者单位:UCSD(University of California, San Diego)
论文摘要:在过去的几年里,自动驾驶的感知系统在性能上取得了显著的进步。然而,这些系统在极端天气条件下难以表现出鲁棒性,因为传感器套件中的主要传感器,如激光雷达和相机,在这些条件下性能会下降。为了解决这一问题,相机雷达融合系统为全天候可靠的高质量感知提供了机会。摄像头提供丰富的语义信息,而雷达可以在遮挡和所有天气条件下工作。
在这项工作中,我们表明,当相机输入退化时,最先进的融合方法表现不佳,本质上会导致失去全天候的可靠性。与这些方法相反,我们提出了一种新的方法RadSegNet,它采用了独立信息提取的新设计理念,真正实现了在包括遮挡和恶劣天气在内的所有条件下的可靠性。我们在基准Astyx数据集上开发并验证了我们提出的系统,并在RADIATE数据集上进一步验证了这些结果。与最先进的方法相比,平均精度得分RadSegNet在Astyx上提高了27%,在radiation上提高了41.46%,并在不利天气条件下保持了明显更好的性能。
二、正文内容
1、Introduction
在过去的几年里,自动驾驶传感系统的快速研究显著提高了物体检测等感知任务的性能。尽管取得了这些进步,但我们仍然没有看到商用车辆普遍具备4级或5级自动驾驶能力。自动驾驶汽车不普及的主要原因是它们依赖于激光雷达、摄像头或它们的融合,这些在遮挡和不利天气条件下无法稳定运行。相机和激光雷达的这一缺点,引发了人们对自动驾驶基于雷达感知的兴趣,特别是在相机雷达融合系统中。
理想情况下,相机雷达融合系统可以结合摄像机和雷达的优点,同时解决每种传感器的缺点。虽然相机提供了丰富的纹理和语义信息,但在远距离、遮挡物体和不利的天气条件下,它们开始失效。另一方面,雷达能够提供全天候、远距离和无遮挡探测,但是,由于缺乏丰富的纹理和语义特征,它们很难清晰地识别物体。在本文中,我们试图回答的主要问题是,如何充分实现这两种模态的优势,以实现准确和可靠的目标检测。
一个理想的融合系统必须实现两种传感方式的优点,同时也要确保一个传感器的缺点不会影响另一个传感器的性能。过去的雷达-相机融合工作使用雷达数据在相机透视视图上的投影,但在这种视图下操作限制了有遮挡物体等情况下的性能。从而导致雷达不能被充分利用。更先进和最先进的方法在特征级(feature-level)执行融合。例如,AVOD-fusion(Low-level sensor fusion network for 3d vehicle detection using radar range-azimuth heatmap and monocular image, ACCV 2020)首先从相机视角和雷达鸟瞰视图(BEV)中同时提取特征,然后在每个物体的基础上融合它们,以利用不同视图中的传感器。然而,我们发现,同时进行特征提取和融合的方法并不适用于相机不可靠的情况。例如,在遮挡物体或不利条件下,雷达不受影响,但相机的输入可能非常不可靠,这将导致整个系统的性能损失。性能损失如图1(第三列)所示,其中当相机遭受人为产生的不利天气时,AVOD-fusion的检测质量下降。
图1 雷达-相机融合架构在人工雾增强相机输入时的性能。AVOD-fusion性能显著下降,而我们的方法即使在雾中也能继续提供可靠的结果。蓝色实框■为实际情况,红色空框□为预测结果。
显然,需要提高相机-雷达系统的可靠性,以便在相机输入降级的情况下也能获得良好的性能。为了实现这一目标,我们采用一种完全不同的方法来融合来自雷达和相机的信息。我们提出,如果我们可以从两个传感器中独立提取有用的信息,那么我们将在避免降低任何一种传感器可靠性的情况下获得两种模态的优势。这种新的融合理念利用了相机和雷达提供互补特性的事实,即来自相机的丰富纹理和语义信息可用于识别场景中的物体,而使用雷达可实现远距离、无遮挡和不利天气的可靠探测。因此,独立提取信息将有利于系统的可靠性。
接着考虑的问题是,如何设计一个系统,能够独立地从两种模态中提取有用的信息。在良好的条件下,系统应该能够使用来自相机的丰富的纹理和语义信息,以及来自雷达的所有物体的深度和大小等有用信息;而当由于遮挡或远处的物体导致相机不可靠,或者由于恶劣天气使得图像退化的条件下,系统仍然能够可靠地使用雷达数据。为了实现这样一个系统,本文提出了RadSegNet,它主要通过使用两个设计原则来实现所需的功能。第一个原则是基于对雷达的洞察,BEV视图比透视视图提供了几个优势,特别是在遮挡的情况下。因此,RadSegNet的核心是使用雷达的BEV视图表示进行探测,对雷达中存在的所有信息进行编码。其次,我们注意到相机中丰富的纹理和语义信息主要用于清晰地识别场景中的对象。因此,受文献[33](Pointpainting: Sequential fusion for 3d object detection, CVPR 2020)的启发,我们依靠在相机语义分割文献中取得的重大进展,独立地从相机RGB图像中提取语义特征。
然而,将从相机提取的语义信息传播到雷达数据仍然是一项具有挑战性的任务,因为相机没有深度信息。为了克服这一挑战,RadSegNet创建了一种新的语义点网格semantic-point-grid(SPG)表示,将来自相机图像的语义信息编码到雷达点云。为了将语义与雷达点相关联,SPG为每个雷达点查找相机像素对应关系,而不是将相机图像投影到雷达BEV。因此,SPG编码实现了所需的独立信息提取(通过从相机提取信息,将其添加到雷达并对增强的雷达表示进行检测)。即使在相机输入不可靠的情况下,RadSegNet仍然可以使用雷达数据可靠地工作。注意这些条件包括恶劣的天气以及遮挡和晴朗天气下的远距离拍摄,在这些情况下,相机数据可能变得不可靠。
我们在两个公开的不同类型雷达数据集评估了我们的方法。对于综合基准测试,我们使用Astyx数据集,该数据集具有雷达点云,并针对恶劣天气进行扩充。对于真实世界数据的不利天气测试,我们使用具有密集雷达数据的RADIATE数据集。对于目标检测任务,与SOTA的相机-雷达融合方法AVOD-fusion相比,RadSegNet在Astyx数据集的平均精度(AP)提高了27%,在RADIATE数据集的平均精度(AP)提高了41.16%。更重要的是,我们展示了即使在相机输入不可靠的情况下,我们的方法也比SOTA提供了更可靠的性能。在恶劣天气条件下,相机图像较差,SOTA可以看到超过50%的AP退化率,而RadSegNet的退化率低于6%。图1表示当雾插入到Astyx数据集的图像中时,我们的方法与AVOD-fusion相比的鲁棒性能。综上所述,我们的雷达-相机融合方法是通用的(适用于任何类型的雷达)、可靠的(在全天候条件下保持可靠性)和完整的(完全利用雷达传感的所有优势)。此外该方法在特征提取阶段不存在依赖关系,易于与其他传感器融合方法集成。
2、Related work
目前的雷达和相机融合方法可以分为以下几类:基于投影的融合(透视投影或反投影或基于雷达的候选区域),多视图特征聚合和基于不确定性的融合。
雷达至相机投影 常见的相机-雷达融合方法是使用相机矩阵将雷达3D点云投影到相机2D透视视图。Felix等人将雷达点云投影在相机平面上,分别放大成垂直的线和支柱来编码高度。Chang等人使用空间注意力网络来处理投影后的雷达图像。Grimm等人使用一个可微的扭曲函数来扭曲雷达张量到相机图像,以使用相机标签进行训练。然而,在透视视图下操作使得很难区分靠近传感器的小物体和更远距离的大物体,因此实现了次优性能。
相机到雷达的逆映射 另一种融合数据的方法是将相机图像投射到雷达的鸟瞰图上。Lim等人利用平面单应性变换将相机图像投射到雷达BEV上。然而,相机到BEV平面的逆映射是不明确的,因为相机图像中缺乏深度信息,导致检测中存在偏差。
候选区域 这类方法倾向于使用雷达生成候选区域来执行目标检测。Nabati等人使用雷达为目标检测器(如Faster-RCNN)生成2D候选框,以提高自动驾驶案例的性能。文献[27]的作者进一步将该方法扩展到3D候选区域生成,并利用雷达和相机的特征来改进方案和检测。这些方法都是基于透视视角,使得检测任务更加困难。
基于传感器不确定性的融合 Kowol等人使用雷达检测来生成不确定性度量。该方法用于削减由标准对象检测器(如Faster RCNN)生成的2D预测,以提高其性能。然而,他们只是用雷达辅助相机,并没有充分利用其优势。
多视图特征聚合 Kim等人使用了一种AVOD类型的架构,其中一组候选框被独立地投射到相机和雷达平面上以提取特征。进而融合目标候选突出的特征,以获得最终的预测。这些方法可以获得相机-雷达融合的SOTA结果,但在恶劣条件下性能仍不可靠。
RadSegNet使用SPG(semantic-point-grid)表示,以可靠的方式将BEV的优点与相机信息结合起来。这使得RadSegNet在所有条件下都能获得更准确的结果和可靠性。
图2 RadSegNet框架图:我们的方法利用来自SPG模块的编码来检测目标。编码由语义分割网络的语义特征以及基于雷达点的特征和占用栅格生成。这些编码的映射被连接并通过边界框检测网络。
3、Radar Primer
从工作原理来看,雷达使用反射的飞行时间(ToF)分析来生成点云,就像激光雷达一样,但它们在工作波长上有所不同。激光雷达使用纳米波长信号,由于表面散射,它提供了非常高的分辨率;雷达使用毫米波长,其中反射功率分为镜面反射和扩散散射。雷达初始数据比较密集,但包含了背景热噪声或多径噪声。雷达数据通常也会经过恒虚警率(CFAR)滤波,产生一个轻量级稀疏点云输出。因此,在雷达点云中,物体边缘的定义不像在激光雷达点云中那样清晰。例如,在雷达点云中,源自墙壁的点簇可能具有与源自汽车的点簇相似的空间扩展。这种效应使得直接从雷达点云中学习任何基于形状的特征来区分感兴趣的物体(汽车、行人等)与背景物体变得具有挑战性。图1显示了雷达点云的不均匀性。
但与此同时,雷达由于采用毫米波段传输,也具有以下独特的优势:a)它们提供的距离比激光雷达更远,因为波长更高的信号具有更低的自由空间功率衰减率。这使得雷达波可以传播更远的距离。b)它们可以看穿被遮挡的车辆,因为它们的信号从地面反弹,使它们也能感知完全被遮挡的车辆。c)它们是一种全天候传感器,因为毫米波的波长更大,可以让它们不受雾、雪和雨等不利条件的影响。
4、Methodology
在本节中,我们将RadSegNet的架构分解为各个阶段,解释RadSegNet如何利用融合的独立特征提取理念来应对遮挡和全天候依赖等挑战。
4.1 BEV 输入表示
用于表示输入数据的视图对深度学习体系结构在目标检测任务中的性能有重大影响。Wang等人表明,只需将数据从透视相机视图转换为3D/BEV视图,就可以获得性能提升。其原因是由于遮挡,存在深度的尺度模糊以及物体重叠现象。在2D透视视图图像中,像2D卷积这样的局部计算可以使用相同的内核处理不同深度的对象。这使得目标检测的任务更加难以学习。另一方面,BEV表示能够清晰地分离不同深度的物体,在部分和完全遮挡物体的情况下提供了明显的优势。
本文的关键见解是,对于雷达来说,必须考虑BEV输入,因为它们可以在有被遮挡的物体时获得信号,因为无线电波从地面反弹(见第3节)。从透视视图表示雷达以提取特征不仅是次优的,而且在被遮挡的物体的情况下还可能造成混淆。因此,为了获得良好可靠的性能,RadSegNet使用BEV表示作为输入。
BEV占用栅格 为了生成BEV表示,我们通过折叠高度维度将雷达点投影到二维平面上。然后将该平面离散为占用栅格。每个栅格元素都是一个指示变量[1],如果它包含一个雷达点,则它的值为1,否则表示为0。这种BEV占用栅格还保留了无序点云不同点之间的空间关系,并以更结构化的格式存储雷达数据。
[1]指示随机变量(indicator random variable,IRV)是概率分析中非常重要的一种离散随机变量,其用来表征某事件是否发生。具体地,假设事件A发生,变量IRV取值为1,否则取值为0。
雷达点特征 BEV占用栅格为雷达提供了最优表示,并为无序的雷达点云提供了秩序。然而,BEV网格同时也将传感空间离散为栅格,从而分解了细化边界框所需的有用信息。为了保留这些信息,我们将基于特征的点作为额外通道添加到BEV栅格中。具体地说,我们增加了笛卡尔坐标、多普勒和强度信息作为附加特征。然后定义网络的BEV栅格输入如下:
其中,表示二维占用栅格,每个栅格元素参数化为
,
中所有雷达点的所在位置存储为1或0。
和
分别代表雷达点的多普勒和强度值。它们根据物体的速度和反射特性帮助识别物体。
为雷达坐标系中的平均深度和水平坐标。为了编码高度信息,我们通过将将高度维度
在7个不同的高度水平上分组,并创建7个通道来生成高度直方图,每个通道对应一个高度。笛卡尔坐标
有助于优化预测边界框。
通道包含该栅格元素中存在的点的数量。
的值通常与表面积和反射功率成正比,这有助于优化边界框。图2也展示了所有点特征的概述。
4.2 与相机融合
BEV占用栅格与雷达点特征,以结构良好的格式表示雷达点云中的所有信息。现在,需要将相机信息添加到这个表示中,以完成我们的融合系统。需要注意,由于相机缺乏深度信息,直接将相机数据投影到BEV是困难且具有挑战性的。为了解决这一问题,目前最先进的雷达-相机融合系统(AVOD-fusion)同时从两种模式中提取特征,然后在每个目标的候选框基础上融合这些特征。然而,在这种方法中,当相机数据对任何物体都不可靠时,在遮挡或不利天气的情况下,性能会显著下降(在某些情况下下降超过50%,请参阅第6节)。
在RadSegNet中,我们定义了一种新的SPG(语义点网格)编码,通过可靠的方式独立地从摄像机中提取信息来解决上述挑战。我们的SPG编码首先从相机中提取丰富的纹理和语义信息,并将其与雷达点云相结合。在下一节中,我们将详细介绍我们的SPG编码,以及它如何利用两种模式的所有优势,同时在相机不确定性的情况下保持可靠。
4.3 语义点网格特征编码
相机语义特征 相机图像中丰富的纹理和语义信息对于理解场景和识别场景中的物体非常有用。这些信息可以很好地与雷达互补,其中雷达点云的不均匀性使得很难学习更好识别物体的特征(见第3节)。对于在不利条件下保持可靠性的同时使用这种互补性质的关键是,首先以场景语义的形式从相机图像中提取有用的信息,然后使用它来增强从雷达获得的BEV表示。与在每个目标的候选框基础上融合特征相比,我们的方法能清晰分离两种模式的信息提取,因此即使在其中一个输入降级时也能可靠地执行。我们使用一个鲁棒的预训练语义分割网络,从场景中存在的物体图像中获得语义掩码。然而,我们仍然需要在没有相机图像深度信息的情况下将这些信息添加到雷达BEV中。
添加语义信息到语义点网格 为了将基于相机的语义与雷达点相关联,我们为语义分割网络的每个输出对象类创建单独的映射。这些映射与BEV占用栅格大小相同,并作为语义特征通道附加。为了获得每个栅格元素的语义特征通道值,我们首先将雷达点转换为相机坐标。然后在相机图像中找到与转换点最近的像素,并将该像素的语义分割输出作为SPG中语义特征通道的值。如果多个雷达点属于同一个栅格元素,则对所有产生的语义值取平均值。这些特征通道包含从相机中提取的语义信息,有助于从雷达BEV占用栅格中检测目标,有效地降低了雷达可能产生的假阳性预测,这是由于雷达数据固有的非均匀性(见第3节),雷达在识别目标时可能会出现混淆。图3展示了如何用雷达BEV栅格对汽车类别的语义特征进行编码。图2展示了整个RadSegNet的架构。
图3 在SPG编码中添加语义通道有助于识别属于感兴趣目标的点。该图显示了两辆车是如何在汽车类别的语义图和相应的BEV占用栅格中表示的。类似地,语义映射也可以表示为其他类别。
请注意,在RadSegNet中使用的与相机融合的形式不会过滤任何雷达点,同时更好地利用两种模态带来的优势。这意味着在基于相机的特征信息量较少的情况下,场景中的所有物体仍然对雷达可见,从而避免性能急剧下降。将来自相机的纹理和高分辨率信息压缩成成语义特征,辅助雷达的全天候、远距离和遮挡鲁棒感知。
4.4 基于SPG特征的边界框预测
通过SPG编码生成的每个BEV映射,都被传递到深度神经网络中进行特征提取和边界框预测。对于我们的骨干特征提取,我们使用具有跳跃连接的编码器-解码器网络。我们使用4个阶段的下采样层,每个阶段有3个卷积层,在编码阶段提取不同尺度的特征,然后在上采样阶段通过跳跃连接结合所有中间特征,生成最终的特征集。我们使用基于锚框的检测架构(SSD: Single shot multibox detector, Springer 2016),使用分类和回归头生成预测。分类头预测输出框的置信度分数,回归头学习改进它们的维度。
5、实施
图像分割网络 对于图像分割网络,我们使用官方DeeplabV3+实现提供的model zoo中的预训练语义分割模型。使用ResNet-101模型在Cityscapes数据集上训练进行语义分割。选择这个模型是因为它的准确性和可泛化性。但是,根据使用情况,也可以选择为速度优化的替代模型。我们的方法与所选择的网络类型无关。
损失函数 在这个体系结构中,我们使用两个损失函数的组合作为我们训练网络的目标。分类头采用Focal Loss(Focal loss for dense object detection, ICCV 2017),它对稀疏雷达点云的分类效果优于二元交叉熵。对于回归头,我们使用Smooth L1损失,它结合了L1和L2损失。损失函数表示为:
其中为分类头的置信度输出,
为优化值,
、
、
为损失函数的超参数。
训练细节 对数据集中的每一帧雷达数据进行处理,提取初始特征通道。网络的输入是一个张量,其中
= 2,
= 22,
= 128,
= 128。这些通道分别对应语义分割值(9)、BEV占用栅格图(1)和点特征(12)。我们使用BEV的真值标签来训练分类和回归头。我们使用真值标签的平均维度作为固定的锚框大小。我们使用0.5的目标IoU (Intersection over Union)来确定锚框的正例和反例进行分类。只有标记为正例的方框用于回归损失。
超参数的值是根据经验确定的。它们分别是: = 0.9,
= 2.0,
= 0.5,
= 1。对于Adam优化器,我们的网络使用
= 0.001的学习率和
= 1e−5的权值衰减来训练。我们使用2个GTX 1080ti和2个batch训练网络约20小时,以达到收敛,并提前停止来使用最佳模型评估系统。采用k折交叉验证以确保更好的泛化性。
指标 使用BEV平均精度(AP)作为评估的主要指标。AP定义为具有真值框的预测边界框的特定交并比(IoU)阈值。在评估中使用0.5的IoU阈值来确定“真阳性”,这通常用于所有BEV目标检测基准。
视图基线 我们选择CenterFusion,最先进的基于透视视图的相机-雷达融合方法,作为我们的baseline之一。在该方法中,作者创建了雷达点云的特征图,并将其与相应的基于图像的特征图一起处理来进行检测。我们还将我们的方法与仅使用相机的方法CenterNet进行比较。CenterNet本质上是没有相应雷达数据的CenterFusion。我们使用这些网络的官方GitHub实现。采用作者提供的预训练网络,并在Astyx数据集上对其进行微调,以进行公平比较。预训练网络比在Astyx数据集上从头开始训练的网络表现得更好。因此,我们只提供了微调网络的结果。
多视图基线(SOTA) 我们使用文献[17]作为基于多视图聚合的基线。文献[17]使用AVOD架构来实现雷达-相机融合。由于文献[17]的官方代码不可用,本文使用AVOD的官方实现,并在Astyx数据集上训练它来比较性能。我们称这种方法为AVOD-fusion。这也是传感器融合的SOTA方法。
测试数据集 我们对两个数据集进行评估。首先,我们展示了Astyx高分辨率雷达数据集的结果,并全面基准化了我们的方法。我们还在该数据集中创建了增强天气,以评估不同相机-雷达融合方法在不利条件下的可靠性。其次,我们在包含真实恶劣天气环境图像的RADIATE数据集上进行评估。
6、在Astyx数据集的评估
在本节中,我们将在公开可用的Astyx数据集上对我们的系统进行全面评估,以将我们的系统与多个不同的基线进行比较。
数据集详情 Astyx高分辨率雷达数据集是唯一一个提供点云的高分辨率MIMO雷达的公开数据集。这些数据是在德国的道路上用不同速度行驶的车辆收集的。总共提供有546帧。雷达数据采用点云的形式,每个雷达点由定位、多普勒估计和强度估计组成。数据集包含车辆和行人的3D边界框标签,通过使用车载激光雷达点云和相机图像进行人工注释生成。对于每个标签,除了物体的位置、尺寸和方向外,还提供了遮挡级别。根据物体的遮挡水平,我们将数据集分为“无遮挡(简单)”、“未完全遮挡(中等)”和“完整数据集(困难)”3类。我们评估了车辆检测任务(汽车和卡车)的AP性能。使用4:1的比例对训练集和测试集分割数据集。大多数标签出现在距离雷达80m的距离内,因为激光雷达无法在如此远距离上保持足够的点密度,导致标签的确定性大大降低,超过了这个限制。因此,我们将系统的所有评估限制在该距离内。
表1 BEV不同IoU阈值的平均精度分数。RadSegNet在所有难度级别上优于其他基线架构。最好的基线分数用下划线标注。R:雷达;C:相机
6.1 BEV 边界框预测
表1比较了我们的网络与其他雷达-相机融合方法的AP分数。发现基于透视视图的方法[26,36]并不能提供良好的AP分数。这表明了BEV表示的优势,它使得性能巨大提升,特别是在遮挡和远距离的情况下。由于其BEV表示,RadSegNet在这3种遮挡类别中都优于其他透视视图基线。同样,目前最先进的方法AVOD-fusion,也使用来自雷达的BEV表示,是性能最好的基线。然而,RadSegNet在所有难度类别中也优于AVOD-fusion,这表明独立的信息提取在所有条件下都具有显著优势。为了进一步分析这一说法,本文还提供了所有类别中相对于AVOD-fusion的百分比增长。在包括遮挡的中等和困难类别中,百分比增加更高。这表明,RadSegNet中用于雷达-相机融合的SPG表示比AVOD-fusion的同时特征提取具有显著优势,特别是在遮挡情况下,即使在晴天相机特征不可靠。我们还在一些样例场景中提供了我们的网络的定性输出。图4显示了RadSegNet与AVOD-fusion相比的边界框预测输出。这表明,我们的网络可以在不同的条件下准确预测边界框,如远距离、紧密间隔的汽车和不同的方向。
图4 在Astyx数据集的挑战案例上,RadSegNet边界框输出可视化。黑点代表BEV中的雷达点云。蓝色实框■为实际情况,红色空框□为预测结果。
6.2 激光雷达与雷达的性能比较
在本实验中,我们在不改变架构的情况下,使用Astyx提供的激光雷达数据作为RadSegNet的输入,以了解使用雷达相对于激光雷达的优势。为了进行比较,我们还使用最先进的激光雷达目标检测网络之一pointpillars,并将Astyx中提供的激光雷达数据作为输入。表2提供了本实验的比较结果。我们考虑了RadSegNet的两个变体:完整的RadSegNet和RadSegNet-BEV,其中我们不使用来自相机的语义特征。对于这两种变体,我们比较了使用雷达和激光雷达作为输入之间的性能。可以看到,尽管基于激光雷达的目标检测通过添加相机(RadSegNet vs RadSegNet-BEV)而受益,但与使用雷达作为输入相比,它仍然表现不佳。雷达提供远距离和无遮挡感知,有利于目标检测任务。此外,RadSegNet-BEV在与雷达数据进行比较时优于pointpillars,这得益于RadSegNet中使用的SPG编码,它可以编码来自雷达点云的有用上下文信息。通过结合相机与雷达,RadSegNet提供了低成本、全天候可靠和高质量的感知解决方案。有关更多定性和距离方面的比较,请参阅补充资料。
表2 激光雷达和雷达作为输入的性能比较
6.3 相机在对抗场景下的性能
在本实验中,我们进一步评估了相机-雷达融合系统在相机图像处于对抗场景时的性能。为了将性能下降与正常情况进行比较,我们需要在Astyx数据集中增加人工恶劣天气条件下的相机图像。由于Astyx数据集中没有密集深度地图和立体摄像机,因此不可能使用增强的物理模型。但是,为了证明这个概念,我们使用imgaug 1库,该库使用图像过滤器在图像中添加恶劣天气。详情请参考补充资料。在下一节中,我们还在RADIATE数据集比较了真实不利天气条件下的结果。
表3比较了本文的工作与AVOD-fusion基线的性能。对于每个增强的天气条件,我们还显示了与晴天性能相比性能下降的百分比。我们使用在晴天训练的网络,并使用增强的天气增强对测试集进行评估。结果表明,在雾和雨的情况下,AVOD-fusion的性能严重下降。这是因为AVOD-fusion学习的特征严重依赖于相机的每个物体候选框,在不利条件下变得不可靠。RadSegNet表明,与AVOD-fusion相比,它在所有条件下的性能受到的影响要小得多。这些结果显示了当前雷达相机融合方法的缺点,以及RadSegNet从雷达和摄像机学习独立特征的能力,可以在不利情况下可靠地执行。定性比较请参考补充资料。
表3 不同天气条件下IoU阈值0.5的AP对本文系统架构和AVOD-fusion的影响。在所有各自的实验中,为两个架构提供相同的输入。括号中晴天性能的百分比下降。
我们还比较了不同增强情况下语义分割输出的IoU下降,将原始图像的分割输出作为真值(补充材料中的定性输出)。我们得到了IoU为0.61(雾),0.40(雨)和0.57(雪)。质量下降的趋势与AP性能相同。然而,过去的工作表明,通过对不利天气数据进行微调,可以独立地提高语义分割输出的性能,这将进一步提高RadSegNet的性能。
6.4 消融学习
在本节中,我们将评估SPG编码的每个通道所提供的性能增益。表4显示了本次消融研究的结果。基线实验仅包含具有多普勒和强度特征的BEV映射(雷达列)。 (位置)映射在0.5 IoU AP评分上提高了1.76%。这些通道提供了世界坐标系统中每个BEV栅格元素的空间上下文信息,这对边界框优化特别有帮助。
个通道通过提供有关反射强度和表面积的信息,提供了另一个9.05% 的增加。最后,来自相机的语义特征提供了27.12%的性能显著提高,这表明RadSegNet所使用的独立信息提取方法可以综合利用两种模态的优势。
表4 消融学习实验。不同IoU阈值下每个通道对RadSegNet BEV AP总体性能的影响
7、在RADIATE数据集的评估
在该实验中,我们在一个大规模雷达数据集RADIATE上评估RadSegNet。该数据集使用机械雷达提供密集的雷达数据作为输出。数据集还包含雨雪等恶劣天气条件下的场景,以及夜间等恶劣照明条件下的场景,使其成为测试真实世界不利条件下性能的理想选择。
实验细节 RADIATE数据集使用机械Navtech CTS 350-X雷达和2个ZED相机。雷达数据存储为2D强度图,没有任何高度信息。我们在评估中使用了左边的ZED相机。ZED摄像机只面向前方,所以我们裁剪出强度地图,只保持前方方向。相应地标签也被过滤掉。评估的最大距离约为70.66m。RadSegNet使用点云作为输入,以执行SPG编码。由于雷达输入以强度图的形式出现,我们使用CFAR滤波技术将强度图转换为2D点云。由于没有高度信息,我们使用传感器的高度作为数据的高度坐标,以得到三维点云。之后,我们有了相机图像和雷达点云,用它们来评估RADIATE数据集上的RadSegNet。训练集包含8890个晴天样本和4151个恶劣天气样本。测试集有4387个晴天样本,1222个恶劣天气样本。这是作者在文献(Radiate: A radar dataset for automotive perception)中提供的官方分割数据集。
7.1 在晴朗/恶劣天气下的性能
表5显示了在RADIATE数据集上目标检测性能的结果。我们进行了两种类型的实验:1)只对晴天条件下的样本进行训练;2)同时对晴朗/恶劣天气条件下的样本进行训练。两个实验使用相同的测试集,其中包含来自晴朗/恶劣天气数据。与AVOD-fusion基线相比,RadSegNet在晴朗/恶劣天气条件下都获得了更好的性能(在该场景下训练和测试时提高了41.46%)。更有趣的是,我们比较了在恶劣天气测试集上的AP分数,从第一个实验到第二个实验有所增加。与AVOD-fusion相比,RadSegNet的这一增长更为显著(126% vs 25%)。对此我们进行了两个观察:1)对于密集雷达类型,晴朗/恶劣天气条件下雷达数据之间存在轻微的域差距,因为在只有晴天数据时训练的网络不能很好地概括不良数据;2)当对恶劣天气数据提供一些监督时,RadSegNet的独立信息提取方法比SOTA提供了更可靠的性能。总的来说,这个实验进一步证明无论使用哪种类型的雷达,RadSegNet的融合在晴天时提供了更好的性能,在恶劣天气条件下提供了更高的可靠性。
表5 RADIATE数据集的结果。括号中的百分比分数表明,相对于只有晴天数据训练分数有所提高
图5展示了我们的网络在不同天气条件下的示例输出。结果表明,RadSegNet的设计不受雷达类型的影响,具有较好的泛化性。它可以在车辆密集、恶劣天气和光照条件等具有挑战性的情况下提供准确的检测。
图5 RadSegNet在不同天气条件下对RADIATE数据集的边界框预测结果。蓝框表示真实车辆,红框表示预测结果。
8、讨论
RadSegNet对相机图像进行语义分割,并利用SPG编码表示进行检测。为了在实际场景中最小化获取语义分割的开销,可以通过在检测和语义分割网络之间保持一帧延迟来实现并行工作。过去的工作(Pointpainting: Sequential fusion for 3d object detection, CVPR2020)已经探索了构建这样的系统的可能性,类似的技术也可以应用在我们的方法中。我们表明,独立提取降低了相机和雷达特征提取的相互依赖性。当出现相机语义分割完全退化这种最坏的情况时,整个系统的性能将下降到只有雷达进行检测。未来的工作将是设计一种不确定性度量,可以在达到某个退化点后关闭相机输入。需要注意的是,只有在RadSegNet提供的相机和雷达特征提取方面具有独立性,才能关闭相机。另外,雨、雪、雹、雾对雷达的影响在过去的文献中也有研究。总体影响是雷达接收机噪声功率上升。这种效果与激光雷达和相机的效果根本不同,在激光雷达和相机中,恶劣天气会分别产生虚假物体和扭曲图像。而噪声水平的增加会减小雷达检测的最大范围,这可以通过使用更高的发射功率或对恶劣天气的数据进行一些微调来消除(见第7节)。
三、补充材料
1、RadSegNet详细架构
图13中给出了RadSegnet的详细架构。RadSegnet是一种单级目标检测器,采用U-net的架构,其中使用卷积层从SPG编码的输入中提取特征。在网络中有3个阶段的下采样和对应的3个阶段的上采样。使用步长为2进行下采样,转置卷积进行上采样。下采样和上采样特征之间的跳跃连接确保了更精细分辨率特征的传播。获得的特征被传递到具有两个独立头部的检测网络,用于分类评分预测和边界框参数回归。
2、不同天气对图像语义分割的影响
图8显示了每种增强的示例输出。还展示了语义分割网络在每个增强上的分割输出。在大雪条件下,分割输出不受严重影响,而在大雾条件下,可以看到许多物体周围的错误分割。在这两种情况下,RadSegNet都保持了在晴朗天气下几乎完美的性能。对于雨天,语义分割输出受影响最大。这会导致性能上的一些损失。尽管如此,与最先进的相机-雷达融合方法AVOD-fusion相比,即使受到分割影响,RadSegNet仍然保持着更可靠的性能,因为它独立地学习两种模态特征。