DDHFusion:双域同构融合网络,解决多模态特征难题,NuScenes数据集显优势 !

将激光雷达点云特征和图像特征融合到统一的鸟瞰视图(BEV)空间中,已成为自动驾驶中三维目标检测的广泛应用方法。然而,这些方法受限于多模态特征过高的压缩度。

尽管有些工作探索了在密集 Voxel 空间中的特征融合方法,但它们在 Query 生成方面面临高计算成本和效率低下问题。为解决这些问题,作者提出了一种双域同构融合网络(Dual-Domain Homogeneous Fusion,简称DDHFusion),该网络利用BEV域和 Voxel 域的优势,同时缓解各自的缺点。

具体而言,首先使用LSS及作者提出的语义感知特征采样模块将图像特征转换至BEV和稀疏 Voxel 空间,这可以通过过滤掉不重要的 Voxel 显著减少计算开销。

在特征编码方面,作者设计了两种网络用于BEV和 Voxel 特征的融合,并引入新颖的跨模态 Voxel 和BEV Mamba块来解决特征错位问题,从而实现高效且全面的场景感知。

输出的 Voxel 特征被注入到BEV空间中,以补偿因高度压缩导致的三维细节损失。在特征解码阶段,在BEV域实现了一个渐进 Query 生成模块,以减轻由于特征压缩和小物体尺寸造成的 Query 选择中的假阴性问题。最后,一个渐进解码器可以逐级聚合丰富上下文的BEV特征以及几何感知的 Voxel 特征,从而确保更精确的信心预测和边框回归。

在NuScenes数据集上,DDHFusion实现了最先进的性能,进一步的实验也证明了它相对于其他同构融合方法的优越性。

1. INTRODUCTION

自主驾驶已成为一个高度活跃的研究领域,随着深度学习模型的整合而迅速发展。在其关键技术中,三维目标检测在实现安全高效的驾驶规划方面发挥着至关重要的作用。当前的自主系统中,激光雷达和摄像头被视为环境感知的重要传感器。激光雷达利用激光回波技术以点云的形式捕获精确的三维环境信息,而摄像头通过捕捉可见光生成富含纹理信息的图像。借助激光雷达和摄像头互补的优势,基于融合的目标检测器在准确性和鲁棒性方面一直优于单传感器版本。

然而,多传感器特征融合并非易事,因为相机数据与激光雷达数据之间存在固有的异质性。许多现有工作[1]-[6]试图通过向原始点云或 Voxel 中添加图像特征来丰富这些数据。然而,这种方法会在相机到激光雷达投影过程中导致语义信息损失,因为只有少量的图像特征被保留下来,从而导致在点较少的区域检测性能下降。近期研究表明[7]-[12],同构融合策略积极地将图像特征转换为与激光雷达特征共享的表示空间。这些方法利用对称网络架构充分利用了多模态互补性,同时减轻了单传感器故障造成的性能下降。

一种常用的方法[7]-[9],如图1(a)所示,采用Lift-Splat-Shoot (LSS)将图像特征投影到统一的BEV平面,并与LiDAR特征进行拼接。该方法非常高效,成熟的技术可以直接应用于BEV特征融合和 Query 生成。对于 Query 生成,基于样本中心的标签分配和Top-K选择策略被广泛使用。

然而,这种方法也存在两个局限性:

  1. 信息压缩:高度维度上的几何和纹理信息压缩会导致BEV特征模糊,进一步导致检测遗漏和回归精度降低。如图1(b)所示,一些工作引入了多视图编码器-解码器结构来解决这一问题。然而,将LiDAR特征重新转换到前视图会显著破坏三维空间关系,依然存在语义模糊。
  2. 特征对齐不良:在LSS中的深度估计不准确或传感器之间的校准误差可能导致多模态BEV特征的空间对齐不良。在将特征输入BEV Backbone 网络之前需要额外的对齐技术。

图片

如图1©所示,已探索在统一的 Voxel 空间中进行融合,以保留三维几何细节并利用高维特征交互来增强空间感知能力,同时避免信息压缩。

尽管从理论上讲,基于BEV的融合不如这种方法优越,但该范式仍面临几个挑战:

1)计算负担:将表示为密集 Voxel 的特征进行融合需要大量内存和计算资源,使得在大规模驾驶场景中难以部署。

2) Query 生成难题:根据,与BEV域相比, Voxel 域中的前景背景不平衡问题更严重且维度更高,这使得标签分配和输入依赖的 Query 生成更加复杂。采用随机初始化的3D可学习 Query ,并结合解码器中的局部3D可变形注意力机制,这会减慢训练收敛速度并限制模型对潜在实例的定位能力。

3)特征错位:在 Voxel 域中,特征错位的问题变得更加严峻。计算约束迫使这些方法依赖于3D卷积在有限感受野内进行局部特征融合,这阻碍了在更大区域内的特征对齐。

在本研究中,作者提出了一种新颖的检测框架——双域同构融合网络(DDHFusion),该框架克服了BEV和 Voxel 融合领域各自的局限性,同时充分利用了它们的优势。如图1(d)所示,BEV领域负责Query生成,而 Voxel 领域则提供几何感知特征。

为了清晰起见,所提出的算法分为三个步骤:

  1. 特征变换:首先,作者使用语义感知特征采样(SAFS)模块和LSS模块将图像特征转化为稀疏 Voxel 空间和BEV空间。与[12]相比,稀疏 Voxel 表示显著减少了计算开销。
  2. 特征编码:在编码过程中,这些多表示图像特征通过同构 Voxel 和BEV融合(HVF和HBF)网络与LiDAR特征相互作用。在这些网络内,作者引入了跨模态 Voxel 和BEV马姆巴块(CV-Mamba和CB-Mamba),以解决特征对齐问题并实现高效的整体场景感知。
  3. 特征解码:在解码阶段,作者提出了渐进式Query生成(PQG)模块和渐进式解码器(PD)。前者激活高响应Query的BEV特征,在第二阶段生成潜在困难Query,以缓解由于特征压缩和小物体尺寸导致的假阴性。后者通过集成作者的多模态 Voxel 特征混合(MMVFM)模块周围的精细三维结构特征增强了传统的BEV解码器。

总结而言,主要贡献如下:

  1. 作者提出了DDHFusion用于3D目标检测,在NuScenes数据集上取得了领先性能,超越了其他同构融合方法,并且保持了高效的推理速度。
  2. 据作者所知,作者首次将Mamba扩展到了多模态3D检测领域。提出的CV-Mamba和CB-Mamba模块有效地促进了全局 Voxel 域或BEV域之间的特征融合。
  3. 作者提出了一种PQG和PQ模块用于特征解码。前者在过程中分阶段生成易于回答和难以回答的问题,以尽量减少假阴性;后者则能够自适应地融合双域特征,从而提高每个 Query 回归的准确性。

II. RELATED WORK

A. Homogeneous Fusion in BEV Domain

在共享的鸟瞰图(BEV)空间中进行融合是自主驾驶中3D目标检测的一种突出方法。这一过程中一个关键步骤是将图像特征转换到BEV空间。早期的工作[15]提出了一种自动校准方法:将图像特征投影到预定义的密集3D Voxel 中心,通过回归偏移进行调整,并分配给相应的 Voxel 。随后,这些特征会沿着高度方向进行压缩,从而生成BEV特征。在此基础上,[16]引入了距离注意机制,以细化中间 Voxel 特征沿距离维度的分布。

最近,LSS[17]因其视图变换能力而广受欢迎。该方法基于深度估计将特征投影到3D锥形结构上,然后通过池化操作映射到BEV平面上。然而,深度估计的不准确性通常会导致LiDAR和图像BEV视图之间的对齐错误。为解决此问题,[18]利用对比学习进行特征对齐,而[19]和[20]则采用了语义引导的光学流估计或互变形注意机制进行显式对齐。此外,[21]和[20]通过边缘感知的LiDAR深度图或局部对齐操作来提高深度估计的准确性。

与前述方法中的局部融合操作不同,作者的方法在模态内部和跨模态之间建立全局关系,从而实现有效的特征对齐,并获得更加全面的场景感知。

B. Homogeneous Fusion in Voxel Domain

与BEV同质融合相比,将图像特征转换到 Voxel 域并将其与LiDAR Voxel 融合可以避免由高度压缩引起的信息损失。此外,在解码过程中引入多模态 Voxel 特征会导致更好的回归精度。文献[22]和[23]将每个像素上的图像特征反投影到具有深度完成的虚拟点上,然后将它们转换成 Voxel ,并通过 Voxel 池化融合精细粒度的多模态特征。文献[24]使用图像中2D实例 Mask 周围的最近邻匹配生成虚拟点。

文献[25]在此基础上引入了k近邻匹配,并引入门控模态感知卷积来在不同粒度上融合摄像机和LiDAR的语义和几何特征。尽管这些基于虚拟点的方法主要解决了LiDAR点云的稀疏性问题,但它们需要额外的深度完成或高分辨率实例分割网络。这导致了显著的训练成本,并且这些任务所需的标签往往难以获取。相比之下,文献[12]通过采用类似于LSS的算法绕过了额外网络的需求。

它首先将图像特征分配给预定义的密集 Voxel ,然后使用类别基础的深度图加权它们。文献[26]去除了深度加权步骤,并引入了附加的门控机制以实现灵活的融合。然而,密集的 Voxel 表示带来了显著的计算开销。在近期的工作中,文献[27]仅在LSS的中间 Voxel 空间中使用元素级融合,随后的特征传播发生在BEV域中。

在作者的工作中,作者采用稀疏 Voxel 表示来节省计算资源。此外,基于Mamba的网络HVF促进了多粒度全局特征融合。

C. State Space Model

状态空间模型(SSMs)[28]-[30]通过表示系统在每个时刻的内部状态来描述动态系统。随着深度学习的进步,SSMs被集成到神经网络中,以实现更高效的灵活推理。[31]通过引入高阶多项式投影算子有效地捕捉序列中的长期依赖性,将历史信息压缩到低维状态空间中。基于[29]的结构化状态空间模型S4 [28]通过结构化的状态转换矩阵增强计算效率和建模能力。

在S4的基础上,[32]引入了输入特定的状态转换机制,显著提高了表达能力和效率。由于其线性复杂度,Mamba在计算机视觉领域得到了广泛应用。例如,[33]将图像展开为1D序列,并提出了一种双向Mamba模块来进行全面的特征学习。[34]进一步将此方法扩展到四向扫描,揭示了图像中更丰富的空间关系,并对Mamba的线性注意力进行了理论分析。Mamba还应用于3D任务,如点云分类[35]、3D目标检测[36]-[38]和语义补全[39]等。例如,[36]使用无簇Voxel Mamba模块在整个场景中扩展感受野,而[39]则将局部自适应重排序整合进Mamba模块以增强局部信息提取。

与这些用于3D任务的单模态架构不同,作者将Mamba扩展到了多模态架构,进一步挖掘了其潜力。

III. METHOD

DDHFusion 的工作流程如图2所示。首先,多视角图像和LiDAR点云分别通过各自的网络进行特征提取。接着,这些特征被转换为稀疏 Voxel 、 和BEV表示 。然后,引入了两个同构融合网络,在各自的领域内执行特征融合。输出的 和 在稀疏高度压缩之后传递给BEV融合网络。处理过BEV主干网络后,生成的BEV特征用于逐步 Query 生成。这些 Query 随后被输入到包含BEV解码器和 Voxel 解码器的逐步解码器中,用于分类和边界框回归。在本节中,作者将从语义感知特征采样、 Voxel 同构网络、BEV同构网络、逐步 Query 生成以及逐步解码器等方面详细介绍DDHFusion的工作原理。

图片

A. Semantic-Aware Feature Sampling

使用密集的 Voxel 描述整个驾驶场景具有高度的冗余性。首先,许多 Voxel 对应的是空旷的空间,其中没有物体存在。其次,在自动驾驶场景中,前景物体通常只占据场景整体的一小部分区域。这种冗余不仅消耗了大量的计算资源,还会使模型的信息提取能力分散到大量不相关的区域,从而妨碍特征学习。

受[41]的启发,作者提出了如图3所示的SAFS模块,用于有选择地生成重要的图像 Voxel 。首先,图像主干提取的图像特征通过一个卷积块生成深度图。类似于LSS,这些深度由离散的bins表示。另一个分支预测语义分割 Mask 。在训练过程中,作者将地面真相框内的点投影到图像平面上,以生成稀疏监督的分割标签。

图片

作者将整个三维空间划分为 Voxel ,数量为。根据[12],作者将高度范围设置为激光雷达 Voxel 的两倍,以从图像中获取更多的纹理细节。然后,作者将 Voxel 中心投影到图像平面,并使用双线性插值收集深度分数和语义分数。筛选出同时满足两个分数阈值的 Voxel 。

在训练初期或某些人群场景中,的数量可能过于庞大。因此,作者设定了一个上限 ,如果数量超过该上限,则应用最远点采样以保留仅 个 Voxel 。最后,作者将图像特征分配给 ,并乘以相应的深度分数,从而获得 Voxel 特征 。

B. Homogeneous Voxel Fusion Network

在HVF中,作者采用了一种3D U-Net架构来融合激光雷达 Voxel 和图像 Voxel 。如图4所示,网络由两个并行分支组成,分别处理 Voxel 特征,且每个尺度都进行特征融合。由于深度估计的不确定性以及校准误差, 和 往往存在空间上的不对齐问题。先前的工作 [12], [22], [25] 仅通过连接或局部门控机制在同一位置或3x3x3邻域内融合 Voxel 特征,但未能解决对齐问题,并限制了网络全面感知多模态信息的能力。受Mamba在基于激光雷达的3D目标检测 [36], [37] 方面最近成功启发,作者提出了基于同一模态和跨模态的Mamba Voxel 模块(IV-Mamba和CV-Mamba),用于每个尺度的特征融合。在IV-Mamba中,作者根据[36]中的方法,将 Voxel 重新排列为基于三维希尔伯特曲线的1D序列。然后使用离散SSM模型处理整个序列:

图片

这里, 和 是通过零阶保持公式从连续状态空间模型(SSM)的参数中导出的:

其中, 表示时间尺度参数, 表示可学习矩阵。、 和 通过线性层从输入序列 中推理得出,确保了 SSM 模型的输入特异性。为了保证完整的感知,实现了正向和反向的 SSM。它们的输出序列相加,并通过 进行调制,以产生最终结果。

在CV-Mamba中,作者直接在统一的3D空间中结合多种模态的 Voxel 。值得注意的是,图像 Voxel 的高度范围是激光雷达 Voxel 的两倍。因此,在结合前,需要将激光雷达 Voxel 的z索引乘以二。类似于IV-Mamba,这些 Voxel 被展开成1D序列,并送入SSM。虽然某些 Voxel 可能占据相同的位置,但在本方法中,作者将其视为序列中的不同元素,而不是合并它们,如[25]中所示。

根据[34]中的理论证明,前进-回退的Mamba是一种特殊的全局Transformer版本,使得非对齐特征能够匹配其对应的其他模态特征。然后,不同模态的输出 Voxel 被分离并返回到各自的分支,在那里通过稀疏3D卷积进行下采样。值得注意的是,在大多数现有工作中,融合具有不同分布的特征[22]、[23]、[25]、[42]需要进行最近邻搜索或分组等操作,而作者设计的简洁的全局合并-分割操作使融合过程更加高效和直观。交替使用IV-Mamba和CV-Mamba有效地缩小了模态间的差距,并减轻了每种模态退化数据对融合特征的负面影响。

最后,逆稀疏卷积用于将 Voxel 特征上采样回原始尺度。输出特征和不会直接结合,以避免由不同的 Voxel 分布带来的干扰。相反,它们分别被送入解码器中的均匀BEV融合网络和多模态特征混合模块。

C. Homogeneous BEV Fusion Network

在同质BEV融合网络中,来自同质 Voxel 网络的特征和通过稀疏高度压缩[43]转换为BEV格网——具体来说,对属于同一BEV像素的 Voxel 特征进行了最大池化,生成了和。然后将它们与和进行拼接,以更多地注入BEV空间中的三维语义和结构细节。值得注意的是,在SAFS过程中,由于低语义或深度得分,一些潜在的前景 Voxel 可能会被筛选出去。LSS通过保留整个环境的图像信息来弥补这一点。此外,SAFS和LSS共享相同的深度图。由于LSS没有经过特征筛选,因此它保留了所有反向传播的梯度,这有助于在训练期间加速深度估计的收敛。

如图4所示,作者还应用了基于Mamba的融合范式,该范式包括内部模态和跨模态BEV Mamba(IB-Mamba和CB-Mamba)模块,用于生成高质量的BEV特征。首先,将拼接后的特征输入到IB-Mamba中,使网络能够全局感知模态特异性信息。随后,按照[34]中提出的SS2D块,应用四方向交叉扫描展开图像,这有助于构建全面的空间关系。然后,如公式2和3所示,在所有四个方向上同时进行SSM操作。经过LayerNorm后,输出被与相乘并求和以获得最终结果。

在CB-Mamba中,为了进一步在密集BEV空间对齐多模态特征并适应性融合它们,作者将原本设计用于单模态任务的SS2D操作扩展到跨模态融合。如图4所示,SSM计算的参数源自连接张量,指导图像和LiDAR特征的全局校正。作者使用以下公式描述SSM参数化。

其中,上标 表示用于 SS2D 四方向扫描的参数。此外,调制参数 和 是通过 Concat 融合特征生成的,并用于重新加权多模态特征。

这使得网络能够自主地偏好更可靠的模态,从而在复杂场景中提高适应性。

在CB-Mamba之后,BEV输出张量被送入BEV主干网络以进行进一步的特征传播,生成,随后将其用作 Query 生成的输入。

D. Progressive Query Generation

在DDHFusion中,BEV分支用于高效地生成目标候选。尽管许多先前的工作试图通过范围视图[44, 45]或稀疏3D空间[46, 47]来实现这一点,前者受物体遮挡的影响,后者常常依赖于中心投票策略,这对其点云或 Voxel 不均匀分布非常敏感。相比之下,在BEV域中生成 Query 相对简单。首先,作者从通过卷积生成一个Heatmap。正如文献[14]所述,可以通过基于3x3最大池化的非极大值抑制处理响应得分,然后进行Top-k选择来获取 Query 。然而,一些硬目标由于信息损坏(例如稀疏表面点或模糊图像纹理),即使经过高度压缩后特征也可能进一步恶化。此外,由于目标通常在BEV平面上较小,因此在BEV主干的卷积操作中,其特征可能被其他特征所掩盖。

为了应对这一挑战,[48] 提出了一种多阶段 Query 生成策略。该策略将 Query 分为不同难度 Level ,并采用残差块在不同 Level 之间激活BEV特征,以专注于更难的目标实例。在本工作中,作者简化了这一方法,将 Query 分为两类:简单的 Query 和困难的 Query 。相应的两阶段提取过程将在后续方程中详细说明。

其中, 是从 生成的 Mask ,用于通过遮挡 对应区域来获得 。在训练过程中,作者仅在 的区域内计算第二阶段的 Heatmap 损失,引导网络关注硬目标。然而,通过残差块激活BEV特征的效果有限——它只能从困难区域聚集局部信息以增强响应。在驾驶环境中,物体之间的空间关系表现出一定的规律性,例如车辆和障碍物的位置。基于这一观察,作者提出通过线性层将 转换为 ,从而生成形状感知网格特征 。随后,作者依次通过Adamixer [51] 操作分别进行通道混合和空间混合。

hard instance激活模块(HIA模块),该模块利用简单的 Query 激活难以处理区域的特征。具体地,作者修改了方程11如下:

如图6所示,在HlA中,作者首先将类别和位置嵌入为one-hot向量形式的easy queries。

图片

E. Progressive Decoder

许多研究工作〔7〕、〔9〕、〔48〕、〔50〕仅在模型的末尾解码BEV特征。尽管这些特征富含上下文和高级语义信息,但缺乏细粒度的几何感知细节,这限制了框回归的准确性。为了解决这一问题,作者的渐进式解码器(PQ)结合了BEV域和 Voxel 域的特征。

如图2所示,作者通过几个变形注意块解码BEV特征,以获得细化的 Query 。然后,这些 Query 被送入(MMVFM)模块,以解码 Voxel 特征和。如图7所示,设计了两个独立的混合模块来动态聚合 Voxel 特征。在每个模块中,作者首先使用几个线性层从 Query 回归 Proposal 框。接着,作者将该框均匀分割成个网格点。

随后,作者从或中通过 Voxel 池化提取网格特征。之后,作者嵌入每个网格点相对于中心的位置偏移。在这里,和分别代表通道核和空间核。

经过混合操作后,被展平成一个向量并通过线性层减少维度,最终输出或。值得注意的是,在输入和输出通道上与adamixer的原始设计不同,这可以通过压缩空间维度来减少参数数量。在前述局部混合操作之后,作者进一步使用自注意力机制聚合物体间的长程三维特征。最后,来自不同模态的特征以及 Query 被连接作为输出。随后,作者通过自注意力和前馈层解码融合特征。最后,检测Head回归置信度和边界框。

图片

IV. EXPERIMENT

作者的方法在具有挑战性的NuScenes数据集上进行了评估。本节首先描述数据集和实现细节,然后报告DDHFusion的评估性能。此外,作者还开展了消融研究和与其他同构融合方法的对比实验,以进行彻底的分析。

A. Experimental Setup

数据集。nuScenes 数据集因其多传感器配置而引人注目,包括激光雷达、相机、雷达和 GPS/IMU 数据,这使其能够进行全面的多模态研究。该数据集包含1,000种多样化的驾驶场景,其中700个用于训练,150个用于验证,150个用于测试。此外,它还包含了10类物体,如汽车、行人和骑行者,在各种驾驶条件下标注了超过140万个3D边界框。对于3D目标检测,采用了两种关键指标:平均精度均值(mAP)和nuScenes 检测分数(NDS),它们共同提供了对模型性能的整体评估。mAP 通过在0.5米、1米、2米和4米的距离阈值下计算每个类别上的精确度平均值来计算。而 NDS 则是一个综合指标,结合了 mAP 与五个真阳性(TP)误差指标:平均平移误差的均值(mATE)、平均尺度误差的均值(mASE)、平均方向误差的均值(mAOE)、平均速度误差的均值(mAVE)以及平均属性误差的均值(mAAE)。

作者的模型基于MMDetection3D框架构建。对于LiDAR主干网络,作者采用了VoxelNet [52],而Swin-T则作为图像主干网络。检测范围设定为:在X和y轴方向上为[-54米, 54米],在z方向上为[-5米, 3米]。在进行消融研究时,图像尺寸设为256×704以加快训练速度。在评估模型性能时,按照先前的研究设置图像尺寸为384×1056,并将LiDAR主干网络中的卷积核通道数加倍,以实现更好的性能。对于SAFS,作者根据[41]的建议设置了评分阈值d=0.01,s=0.25。最大voxel数量N设为18000。DDHFusion模型在四块4090D GPU上进行训练,批量大小为12。训练过程分为两个阶段:(1) 首先,作者对仅包含LiDAR的数据集进行20个epochs的训练。(2) 然后,作者结合图像和LiDAR分支,对融合网络进行6个epochs的训练。

在训练过程中,作者遵循CBGS [51] 进行类别均衡采样,并采用AdamW优化器,最大学习率为。应用了 Copy-Paste 数据增强[52]以防止过拟合。作者还在第二阶段 incorpor 进 multit-modal Copy-Paste 增强 [53] 以稳定训练过程。

B. Results and Comparison

C.Ablation Studies

在本节中,作者通过全面的消融研究展示了每个组件的有效性。

各模块的消融实验 如表5所示,作者评估了每个模块对检测性能的贡献。作者将BEVFusion中的解码器替换为可变形注意力机制作为 Baseline 。首先,所提出的 Voxel 融合网络显著提升了性能,分别提高了和。仅引入BEV融合网络也能带来和的提升。如第三行所示,结合两种同构融合网络实现了显著的改进,分别提高了和。此外,逐步 Query 生成模块增强了目标检测召回率,贡献了。最后,将 Voxel 解码器整合到原始的BEV解码器中形成逐步解码器进一步提高了和。总之,四个提出的模块完全发挥了双域多模态特征在高性能目标检测中的潜力。

图片

同质化 Voxel 融合网络的分析 如表4所示,作者分析了基于Mamba模块在 Voxel 融合阶段的作用。在第二行中,作者引入了一个仅使用IV-Mamba的3D U-Net,未直接融合图像和LiDAR Voxel 。这种做法通过提升和0.5 NDS的性能,证明了IV-Mamba能够有效捕捉每种模态内的长程依赖性。CV-Mamba也可以增强网络性能,表明不同模态和分布的 Voxel 进行全局融合的有效性。通过采用简单的合并与分裂策略结合这两种方法,不仅能对多模态特征进行对齐,还能保持每种模态的相对独立性,从而避免来自其他模态的噪声或低质量信息的干扰,进一步提高准确性。如表5所示,在HVF设置 Voxel 步长为[1, 2, 4]时取得最优性能,因为增加下采样率使得网络能够以不同粒度捕捉结构信息。

图片

作者进一步分析了同构BEV融合网络HBF。如表6所示,IB-Mamba中的SS2D模块能够在密集BEV图的四个方向上实现全场景特征传播,从而分别提高了0.3 mAP和0.1 NDS。作者提出的CB-Mamba实现了0.5 mAP和0.2 NDS的提升。它能够有效传播多模态特征并自适应地探索它们的潜在关系,从而在BEV域中消除特征错位。值得注意的是,IB-Mamba与CB-Mamba的结合在性能上取得了最佳效果,这有利于后续query生成和解码过程。

图片

不同激活方法的比较 在PQG中,作者探索了不同的激活方法以在第二阶段提取更难的 Query 。如表7所示,按照[48]中的方法,在BEV特征上采用残差块激活方式可获得0.2 mAP和0.1 NDS的小幅提升。作者提出的HIA模块进一步结合了来自简单 Query 的空间线索,这使得在驾驶场景中识别剩余的困难物体变得更加容易,并实现了更高的准确率提升。然而,需要指出的是, Query 与BEV特征之间的交叉注意机制引入了额外的计算开销,从而限制了可以使用的 Query 数量和阶段数量。作者计划在未来工作中解决这一问题。

图片

在逐步解码器中,同时采用了基于BEV和基于 Voxel 的解码器来精炼Query。如表9所示,作者探讨了它们的层数配置(M和N)对性能的影响。第一行的结果显示,仅使用一个基于 Voxel 的解码器会导致精度较低,甚至不如采用3层BEV解码器(参考文献[48])的第二行。网络末尾的BEV图相较于 Voxel 包含更丰富的上下文信息和高层次语义特征,并且其密集表示对抗点云密度变化更为鲁棒,这两者对于复杂环境中目标检测至关重要。然而,如第三行所示,在BEV解码器之后添加一个 Voxel 解码器可以将性能提升和,表明结合具有精细几何细节的 Voxel 特征可以提高预测框的回归精度。然而,进一步增加层数并未带来显著的性能提升。表10展示了混合法块和自注意力机制能够分别适应性地聚合形状特征和长程空间信息,各自对性能提升有所贡献。最终,结合这两种机制达到了最佳效果。

图片

图片

D. Comparsion of Different Homogeneous Fusion Methods

作者在广泛的实验中进一步将DDHFusion与前述介绍中提到的其他三种代表性同构融合方法,即GraphBEV、DeepInteraction++和UVTR进行了对比。

首先,作者评估了这些模型在不同天气和光照条件下的性能。由于DeepInteraction 和UVTR在其论文中没有提供相关数据,作者使用开源代码重现了它们的模型以获得准确度。如表11所示,DDHFusion在所有环境中均取得了最高的mAP。与UVTR不同,DDHFusion不会受到雨天条件的影响,并且即使在光照较差的环境中表现更好。这种鲁棒性源自于DDHFusion中全面的模内和跨模态特征学习,该过程逐步过滤出无效信息,从而学习到稳健的潜在表示。

此外,如表12所示,作者在不同的距离范围内对各种模型的目标检测性能进行了评估,“Near”、“Middle”和“Far”分别代表小于20米、介于20米至30米以及超过30米的距离范围。同样,作者的提出的DDHFusion方法在所有距离范围内均优于其他方法。图8展示了DDHFusion的检测结果,证明了其在复杂环境中准确分类和定位多种类别物体的能力。图9提供了与其他模型的定性比较。如第一行所示,DDHFusion成功检测到了三个远距离且拥挤的物体。在第二行,由DDHFusion生成的边界框显示了最小的偏差。在第三行,它成功识别了一个其他方法未能检测到的小而远的目标。这些结果突显了作者双域同构融合方法的优势。

图片

图片

图片

图片

作者的方法在内存消耗和运行时间方面均表现出竞争力,突显了其实用性和高效性。

为了进行公平比较,所有模型均部署在mmdetection框架中,并在单个4090D GPU上进行测试。如表12所示,DDHFusion的计算资源消耗是可以负担得起的,展示了作者基于Mamba融合模块的高效性。

GraphBEV是最轻量级的,因为它仅在BEV域进行融合。相比之下,UVTR由于保留了密集的 Voxel 单元而承担了最高的计算负荷,而DDHFusion则通过 Voxel 采样操作缓解了这一问题。值得注意的是,DeepInteraction 使用了flashattention来加速计算。同样地,作者相信进一步优化Mamba的硬件性能可以显著提高其效率。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值