集智书童 | 多模态融合再进化 | SAMFusion以距离加权Query替代纯LiDAR方案，夜间远距+3.45AP-优快云博客

本文来源公众号“集智书童”，仅用于学术分享，侵权删，干货满满。

原文链接：https://mp.weixin.qq.com/s/p_EhGuVkbs2JPbJ2s0dQFQ

精简阅读版本

本文主要解决了什么问题

1. 现有多模态传感器融合方法在恶劣天气条件（如大雾、大雪、低光照或因污垢造成的遮挡）下性能显著下降的问题。
2. 传统方法对单一模态（如LiDAR）的依赖导致在传感器失效时检测性能不佳的问题。
3. 传感器融合中模态投影质量不高以及对恶劣天气下传感器失真鲁棒性不足的问题。

本文的核心创新是什么

1. 提出了一种基于transformer的多模态传感器融合方法SAMFusion，结合RGB、LiDAR、NIR门控相机和雷达四种传感器模态，提高恶劣天气下的目标检测性能。
2. 设计了一种新颖的编码器架构，包含深度引导的相机-激光雷达变换、两种相机模态间的早期融合以及自适应混合机制，实现跨模态投影。
3. 引入了多模态、基于距离的Query生成方法，避免仅依赖LiDAR模态生成检测提案，并通过transformer解码器根据距离和可见性对不同模态进行加权。

结果相较于以前的方法有哪些提升

1. 在恶劣天气条件下，SAMFusion将平均精度提高了17.2 AP，特别是在远距离（50-80米）和具有挑战性的雾天场景中对行人的检测更为准确。
2. 在大雪天气下，对行人的检测提高了15.62 AP（相对提升60.51%），在雾天条件下对行人的检测提高了17.2 AP（相对提升101.2%）。
3. 在夜间条件下，SAMFusion通过整合门控相机的主动照明优势，在中距离和远距离行人检测中分别提升了1.08 AP和3.45 AP。

局限性总结

1. 汽车类别的检测性能提升有限，主要由于3D标注中汽车类别的标注偏差（优先考虑精确性而非完整性），导致少于五个LiDAR点的物体被标记为"不关注"。
2. 恶劣天气条件下的检测性能与场景难度相关，道路使用者数量减少可能简化了任务，影响性能提升的普遍性。
3. 方法在实时性方面虽有一定保证，但多模态融合的计算复杂度较高，可能对实际部署中的计算资源提出更高要求。

深入阅读版本

导读

多模态传感器融合是自主机器人的基本能力，使其能够在输入失效或不确定的情况下进行目标检测和决策。尽管最近的融合方法在正常环境条件下表现出色，但这些方法在恶劣天气（如大雾、大雪或因污垢造成的遮挡）中会失效。作者提出了一种针对恶劣天气条件的新型多传感器融合方法。除了融合最近自动驾驶文献中使用的RGB和LiDAR传感器外，作者的传感器融合堆栈还能够从NIR门控相机和雷达模态中学习，以应对低光照和恶劣天气。

作者通过基于注意力和深度的混合方案融合多模态传感器数据，在鸟瞰图(BEV)平面上进行学习式优化，以有效结合图像和距离特征。作者的检测结果由transformer解码器预测，该解码器根据距离和可见性对不同模态进行加权。作者证明了SAMFusion提高了自动驾驶汽车在恶劣天气条件下多模态传感器融合的可靠性，弥合了理想条件与真实世界边缘情况之间的差距。SAMFusion将平均精度提高了17.1AP，与次优方法相比，在远距离和具有挑战性的雾天场景中对易受伤害的行人检测更为准确。作者的项目页面可在此处获取1。

1 引言

自动驾驶车辆依赖于多模态感知系统，包括LiDAR [16, 34, 71, 84]、摄像头 [22, 73, 75] 和雷达 [49] 等传感器，结合具有互补优势和劣势的不同模态，以实现安全的自动驾驶。近期研究 [3,13,28,47,62,77,83] 结合这些不同传感器的输入，通过准确捕捉街景中物体的定位和分类来增强环境感知。因此，这些系统受益于LiDAR深度信息的准确性 [77]、雷达的鲁棒性 [28,51] 以及摄像头的密集语义信息 [13, 47, 62]。尽管融合对于下游分类和定位任务至关重要，如 [3, 7, 29] 所示，但当传感器失效时，需要特别小心才能使融合取得比单一摄像头网络更好的结果。融合策略的例子包括 [3] 中提出的受物理启发的熵驱动融合，以及 [7] 中所示的学习注意力融合。最有效的3D目标检测方法通常利用鸟瞰图（BEV）表示，通过连接特定模态的特征图 [42,47] 或采用多个基于注意力的模块来增强BEV特征 [1,19]。然而，这些技术的鲁棒性通常仅在有利天气条件下收集的数据集上得到验证 [8,20]，并且尚未被证明对恶劣天气相关干扰有效，例如LiDAR点云中的不对称退化 [4]。这种脆弱性主要归因于对单模态 Query 生成器的依赖，以及对基于LiDAR的深度投影的依赖 [83]，这在缺乏可靠LiDAR数据时可能导致网络故障。

门控成像技术的最新进展为传统成像方式提供了一个有前景的替代方案，并在[5, 22, 31, 66, 67]中进行了探索。这项工作展示了门控相机能够主动消除后向散射[5]，提供精确的深度[66, 67]，并在夜间、雾、雪或雨等不利条件下实现高信噪比(SNR)，所有这些都归功于其主动门控场景照明。因此，除了更传统的相机、LiDAR和雷达数据外，作者还将使用门控相机来进一步提高鲁棒性。

总之，作者通过解决传感器融合中的两个关键问题——模态投影质量和恶劣天气下传感器失真的鲁棒性，来应对恶劣天气下鲁棒目标检测的挑战。为此，作者提出了一种传感器自适应多模态融合方法——SAMFusion。作者引入了一种新颖的编码器结构，该结构具有深度引导的相机-激光雷达变换和两种相机模态之间的额外早期融合， incorporating 距离精确的跨模态投影。此外，作者引入了一种新颖的多模态、基于距离的 Query 生成方法，以避免如[1, 83]中那样仅依赖激光雷达模态生成检测 Proposal 。

具体而言，作者做出了以下贡献：

• 作者提出一种新颖的基于transformer的多模态传感器融合方法，改善在存在严重传感器退化情况下的目标检测。
• 作者介绍一种编码器架构，结合了早期相机融合、基于深度的跨模态转换和自适应混合，与学习到的距离加权多模态解码器 Proposal 一起，以提高在不同光照和天气条件下目标检测的可靠性。
• 作者设计了一个transformer解码器，通过多模态 Proposal 初始化在BEV中聚合多模态信息。
• 作者在汽车恶劣天气场景[4]中验证了该方法，并改进了3D-AP，特别是在行人类别上，在最具挑战性的50米-80米距离类别中，相对于现有技术水平，在浓雾中提高了超过17.2AP，在大雪中提高了15.62 AP。

2 相关工作

3D目标检测

3D目标检测任务从2D目标检测发展而来，需要预测物体的3D边界框

（bboxes）和方向[21,34,41,54,82]。单模态LiDAR方法，如[34,88]，已被探索利用LiDAR传感器的深度准确性，基于LiDAR点云预测3D边界框。基于点的方法[54,55,59,82]因此从原始点云特征生成检测结果。其他方法将LiDAR点分组为3D Voxel [14,15]或 Pillar [74,84]。 Voxel 和基于点的方法也可以链接在一起，如[58,60,76]中所示，这些方法实现了额外的精化步骤，基于感兴趣区域池化[23,57]来提高3D目标检测性能。基于相机的方法在[44-46,73]中被研究，这些方法在图像空间本身中工作。然而，相机数据已被证明是与LiDAR融合的良好候选，因为前者可以映射到BEV表示，而后者原生存在于BEV空间中。因此，相机表示空间已从相机坐标[46,73]发展到联合多视图设置和预测的BEV表示[26,39]，提高了3D检测准确性。

多模态传感器融合。虽然常见的BEV地图不一定是默认选择，但几种多模态传感器融合方法已经融合了语义相机信息来丰富单个LiDAR点，如[65, 69, 85]中所述。后续研究，如[78, 86]，研究了如何从相机数据中提取详细信息用于LiDAR点云，这很大程度上依赖于投影的质量，并且被[85]进一步改进。这些方法引入了虚拟3D相机点，以提供更密集的环境上下文，用于增强远距离的Sparse点云。Li等人[38]通过整合可变形注意力[89]扩展了这种方法，在3D Voxel 空间中创建两种模态的统一表示。

最近，在BEV空间中运行的另一研究方向已显示出显著的效果。这种方法融合了在参考帧（例如LiDAR BEV视角）中聚合的特征，然后由执行各种感知任务的任务解码器处理，如3D目标检测[ 9,27,30,40,45,70,79]、车道估计[37, 45, 53]、跟踪[25]、语义分割[40, 45, 47]和规划[25]。这样的框架支持多任务和多模态模型，这些模型受益于这些配置提供的额外监督和正则化。然而，即使是最新的BEV表示方法[32, 47]在将详细的相机特征投影到BEV世界坐标系中以及在传感器失真的情况下防止错误传播方面仍然面临挑战。

恶劣天气下的传感器融合

在本工作中，作者特别旨在解决恶劣天气条件下单个传感器的性能退化问题，如先前文献[28, 50, 63, 64, 72]所示，这会显著降低目标检测性能。多模态传感器融合已成为在这些场景下实现鲁棒性的可行方法[2,3,7,18,50,87]。具体而言，[2,13,29,43]将摄像头模态与雷达信息融合，而[3, 7]引入了额外的传感模态并利用了新颖的、基于物理的融合技术。然而，这些方法仅允许进行2D目标检测的预测。SAMFusion投影到一个共同的BEV平面，采用基于注意力的特征融合并结合密集深度信息，以实现更高性能的3D目标检测。

3 SAMFusion

在本节中，作者介绍用于多模态3D目标检测的SAMFusion架构。SAMFusion利用了LiDAR、雷达、RGB和门控摄像头的互补优势。门控摄像头在雾天和低光条件下表现出色，而雷达在雨天和远距离情况下有效。通过将这些传感器集成到基于深度的特征变换、多模态 Query Proposal 网络和解码器头中，SAMFusion确保了在不同场景下的稳健可靠的3D目标检测。该架构如图2所示。

输入 - RGB/门控相机、LiDAR、雷达 - 通过各自的特征提取器2a转换为特征。这些特征在多模态编码器2b中以注意力方式进行融合，并与相机特定的特征图相结合以产生丰富的特征 - 作者将此称为"早期融合"。

特征现在被传递到多模态解码器 Proposal 模块2c，在该模块中，它们在鸟瞰图表示中通过另一 Level 的融合进行优化，以自适应、距离加权的方式结合图像特征（门控相机）和范围特征（LiDAR、雷达）来生成初始物体 Proposal 。此外，增强的特征被发送到transformer解码器，该解码器优化初始物体 Proposal 以注意力方式生成检测输出。解码器 Proposal 包含优化，通过学习到的权重方案自适应地加权距离，该方案了解测距传感器的物理特性，同时与信息密集的相机模态融合。

3.1 跨模态自适应融合

本节描述了个体传感器特征的早期注意力融合方案。该方法的图示展示在图2b中。

在SAMFusion编码器中，早期注意力融合整合了来自不同模态的信息。为实现这一点，作者首先从主模态的特征创建加权上下文，该上下文与次级模态的特征对齐。然后，使用第二模态的数据( Query ) Query 此上下文(键)，从而产生丰富的对齐特征混合。

作者的早期融合方法支持来自摄像头和LiDAR模态的 Query ，创建了两个平行的成对( Query ,键)注意力融合实例。在"摄像头自适应融合"中，来自RGB和门控摄像头的 Query 与加权的LiDAR上下文样本进行比较(RGB摄像头与采样LiDAR比较，门控摄像头与采样LiDAR比较)。这种融合考虑了在一个模态中可见但在另一个模态中不可见的物体。类似地，在"LiDAR自适应融合"中，LiDAR Query 通过在RGB和门控图像之间混合的采样加权摄像头上下文特征进行评分(LiDAR与采样摄像头比较)。

最后，作者以类似的方式精炼radar features，其中radar proposals通过来自RGB camera的加权上下文进行评分。

相机自适应融合

雷达自适应融合。在雷达分支中，作者采用与第3.1节描述的激光雷达自适应融合相同的原理，唯一区别是作者仅从RGB相机模态计算加权上下文，并且由于雷达点云的Sparse性，作者不执行模态内注意力。

3.2 多模态解码器 Proposal

晚期门控相机特征融合

3.3 Training

SAMFusion架构设计为一个transformer网络，遵循Carion等人[11]和Bai等人[1]的学习方法。它首先使用Hungarian损失[33]将标签与预测进行匹配，然后最小化由分类（交叉熵）、回归和IoU的加权和组成的损失。详细的损失公式在补充材料中提供。

3.4 实现

4 实验

在本节中，作者展示了验证SAMFusion设计选择的实验。4.1小节介绍了评估指标和数据集，4.2小节展示了各个贡献的消融实验，而4.3小节展示了在白天、夜晚、雾天和雪天场景下与现有的最先进的单模态和多模态3D检测方法的比较。

4.1 数据集与评估指标

本节描述了在SeeingThroughFog数据集[3]上对SAMFusion的评估，该数据集包含12,997个在恶劣天气条件下的标注样本，涵盖了北欧的夜间、雾天和雪天场景。遵循[31]，作者将数据集划分为10,046个样本用于训练，1,000个用于验证，1,941个用于测试。测试集进一步划分为1,046个白天样本和895个夜间样本，并按天气条件进行相应划分。此外，作者在补充材料中提供了在NuScenes数据集[8]上的评估结果。

评估指标

目标检测性能是根据KITTI评估框架[21]中指定的指标进行评估的，包括针对乘客车辆和行人类别的3D-AP和BEV-AP。作者在AP计算中采用了40个召回位置[61]。为了匹配预测结果和真实标签，作者应用IoU(IoU)[12]，其中乘客车辆的IoU阈值为0.2，行人的IoU阈值为0.1。此外，作者遵循[81]并根据相应的距离区间报告结果。

4.2 消融实验

在本小节中，作者验证如表2a和表2b所示的方法论贡献。

表2a探索了使用SAMFusion架构进行不同数量输入模态的消融实验。配置包括单一摄像头-LiDAR (CL)、门控-LiDAR (GL)、摄像头-LiDAR-radar (CLR)、门控-LiDAR-radar (GLR)和摄像头-门控-LiDAR-radar (CLGR)输入。这些方法利用基于LiDAR和radar数据的 Query ，并具有学习到的距离权重。作者将结果集中在远距离的行人类别上，由于LiDAR点Sparse，这里的检测最具挑战性。结果强调了整合额外模态的好处，这在白天和夜间条件下都特别明显。

被动RGB与主动门控成像(GL和CL)的单摄像头模态之间的性能比较在不同光照条件下显示出明显的优势。在日光条件下，CL中包含的RGB颜色信息在50m到80m范围内提供了2.85 AP点的性能提升。相反，在夜间，GL中主动照明的优越SNR增强了检测能力，在中距离和远距离分别带来了+1.08 AP和+3.45 AP的改进。在CGL配置中集成两种摄像头技术利用了各自的优势，在白天和夜间设置中都提供了增强的性能。添加雷达数据进一步放大了整体性能，尽管缺少门控摄像头会略微降低夜间效能。

4.3 评估

作者将SAMFusion与九种最先进的方法进行比较，包括一种单目相机3D目标检测方法[6]、两种门控相机方法[31, 48]、一种立体相机方法[36]、一种LiDAR方法[80]以及四种LiDAR-RGB融合方法[42,62,77,83]。结果总结在表1中，进一步的定性评估在图3和图4中呈现，其中报告的检测包括BEV和透视图两种视角。

汽车检测略有改善。这是由于3D标注中汽车类别的标注偏差，该偏差优先考虑精确性而非完整性。少于五个LiDAR点的物体被 Token 为"不关注"，这使得在如此具有挑战性的情况下难以衡量改进。对于行人，采用了一种不同的策略，该策略侧重于完整性，从而提供了更多汽车类别所不具备的具有挑战性的真实标签。

恶劣天气评估

5 结论

作者提出了SAMFusion，一种用于自动驾驶中在恶劣天气条件下进行鲁棒3D目标检测的多模态自适应传感器融合方法。SAMFusion通过门控相机和雷达传感器增强了传统的相机-激光雷达感知堆栈，显著提高了在低光和恶劣天气场景下的性能，特别是对于检测轮廓狭窄和易受伤害的道路使用者。SAMFusion采用基于深度的感知模态自适应融合，并结合学习到的多模态、距离加权的解码器- Query 机制，该机制利用了传感器特定的随距离变化的可见性。作者在具有挑战性的SeeingThroughFog数据集[3]上验证了SAMFusion，在浓雾中对行人的检测提高了17.2AP点，在远距离大雪中提高了15.62AP点。未来的工作将纳入额外任务，如在恶劣天气条件下的规划和不确定性传播，以改进决策和轨迹规划，进一步增强自动驾驶系统在挑战性条件下的鲁棒性和有效性。