Semantics lead all: Towards unified image registration and fusion from a semantic perspective_译文

关键词: 多模态图像匹配    配准与融合    深度学习   语义感知     统一框架

摘要

        红外-可见光图像配准和融合是密切相关的过程,在统一的框架中实现协调配准和融合是一个有吸引力的问题。现有方法的配准精度无法满足某些场景下的融合需求,影响融合视觉性能。此外,作为图像预处理步骤,级联配准和融合后的网络速度不足以完成更高级的任务,从而限制了这些方法的可用性。为了解决上述问题,我们提出了一种使用语义主导的网络,称为 SemLA,能够以高效且鲁棒的方式统一配准和融合过程。我们的关键思想是在网络的所有阶段显式嵌入语义信息。特别是,SemLA 采用了一种协调方法,涉及配准和语义特征的联合训练,以确保高效的网络运行。语义感知地图的校准和其空间结构信息的描述相辅相成,以获得更准确的配准。此外,语义引导的融合过程增强了语义对象内互补信息的表示,同时有效地抑制了由对齐图像的重叠区域分界线引起的视觉干扰。不同实验的结果表明,与最先进的方法相比,我们的 SemLA 在性能和效率之间具有更好的权衡,并且适应高级视觉任务的语义需求。源代码可在https://github.com/xiehousheng/SemLA 公开获取。

1.简介

        广义而言,图像配准识别不同图像的对应结构或内容,并通过对应关系解决其变换模型参数,这为广泛的视觉任务奠定了基础,例如图像融合[1]、变化检测[2]、视觉同步定位与建图 (SLAM) [3] 和运动结构 (SfM) [4]。特别是对于红外和可见光图像融合任务,相机外在因素(位置和方向)和内在因素(焦距和图像传感器尺寸)的变化导致源图像表现出明显的几何扭曲和像素移位。在不准确的空间相关性下直接融合不可避免地会产生伪影,从而导致融合无效。换句话说,空间关系的校正(配准)对于高质量的图像融合至关重要。本文的主要目标是在图像配准和融合任务之间建立一个良好连接的接口,并提供适合融合任务的专门配准解决方案。

        图像配准和图像融合的复杂性促使大多数技术将它们视为单独的任务,重点是提高它们的个体质量。典型的策略是通过图像的特征信息获得稀疏对应的特征点或密集的变换场,从而根据变换模型参数实现图像配准。然后将配准的图像输入现有的图像融合算法,以集成红外和可见光图像的互补信息。这种配准和融合的分离缺乏考虑两个任务之间的相关性,导致配准精度无法满足不同场景的融合要求。为了解决这个问题,出现了一种新的趋势,即在统一的管道中处理配准和融合。ReCoNet [5]引入了微配准模块来粗略估计未对齐引起的失真,随后构建了双相循环学习网络来融合红外和可见光图像。 RFNet[6]采用从粗到细的两阶段配准方法,其中粗配准被建模为仿射变换,精细配准依赖于融合图像质量的反馈,并在精细配准的基础上进一步改善融合结果。 UMF-CMGR[7]使用风格转移网络将可见图像转换为伪红外图像,将跨模态图像配准转化为单模态配准问题,并在配准网络之后访问融合网络以产生最终的融合图像。 SuperFusion [8]首先通过Dense Matcher预测双向变形场,然后使用具有分割网络优化的融合网络进行图像融合。总体而言,各种框架旨在提供相互协调的配准和融合服务,以满足后续视觉任务的需求。由于这些管道的复杂性,如何同时保证配准和融合的有效性是值得考虑的。更具体地,现有方法不同程度地存在以下问题:

        (i) 图像配准的鲁棒性低。红外和可见光图像配准精度不稳定是该领域长期存在的问题。 [7,9]利用图像风格迁移将可见图像转换为伪红外图像,从而通过减少模态差异来提高配准效果。然而,这些方法受到图像风格迁移真实性的限制,仅保证特定成像模式的稳定性,导致配准稳定性不确定。为了克服上述限制,最近的趋势是直接估计红外和可见光图像之间的密集变形场。尽管如此,应该指出的是,这些方法容易受到噪声干扰,仅限于处理简单的几何变形,这使得它们不适合更复杂的场景。向基于稀疏特征点的管道寻求帮助可以提供另一种解决方案。 RIFT[10]专注于通过频域信息构建鲁棒描述符来解决多模态图像特征匹配的挑战。尽管匹配性能良好,但与 RIFT 相关的高计算复杂性限制了其在现实场景中的实际使用。受益于大量SfM训练数据的监督,基于深度学习构建的稀疏特征描述符[11-13]已经显示出超越传统方法的潜力。然而,这些方法仍然面临复杂场景下配准不稳定的问题。此外,基于特征的管道的性能取决于正确对应的特征点的数量,这使得它们在缺乏特征点时容易失败。  

        (ii) 局部非刚性畸变导致融合图像中出现伪影。在现实场景中,背景和场景中的对象之间可能存在显著的深度差异,导致语义对象周围出现相当大的非刚性失真。现有的基于密集变形场或特征点优化的配准方法是为全局图像配准而设计的,这可能会在语义对象的配准中引入错误。这些错误随后会导致融合图像中语义对象周围出现伪影,从而阻碍通常专注于语义对象的后续视觉任务,例如对象检测、姿势估计和对象识别。因此,以适当的方式促进语义对象的精确配准至关重要。

         (iii)图像配准和图像融合的协调问题。作为先决处理步骤,图像配准和图像融合服务于更高级的视觉任务,这要求它们不占用过多的计算资源。因此,图像配准和融合网络的有效联合设计对于其在现实场景中的广泛应用至关重要。 [5-8]在统一的框架中处理图像配准和图像融合,这被认为是合理的。然而,这些方法中设计复杂的网络并不能保证其效率和稳定性。此外,现有的配准方法旨在获得图像的全局最优变换场,缺乏考虑局部语义对象配准的准确性。相比之下,对象级融合方法针对语义对象的融合效果进行优化,同时考虑到高级视觉任务的要求。因此,前者在语义对象配准上缺乏准确性,而后者则优先考虑语义对象的视觉融合效果,产生了需要解决的冲突。

        为了解决上述问题,我们提出了一种可靠的联合红外和可见光配准和融合方案,称为SemLA(Semantics Lead All)。与现有方法不同,我们的 SemLA 利用语义来主导配准和融合的所有过程,允许通过相互自适应的配准和融合来精确操作图像中的语义对象,这使得它能够通过准确地集成交叉视觉任务,为后续视觉任务提供更好的对象表示。模态图像信息。如图 1 所示,SemLA 利用以语义为中心的管道来实现语义对象的稳定配准和融合,与之前的工作相比,在后续视觉任务(例如姿态和深度估计)中具有卓越的性能。本文的主要贡献可以概括如下:

        (1)我们提出了一种语义主导的联合配准和融合方案,通过紧密耦合的网络设计为其他视觉任务提供实时可靠的视觉表示。

        (2)我们设计了跨模态语义校准模块,该模块考虑了红外图像和可见光图像之间语义对象成像的模态差异,通过自适应调整获得更准确的语义对象感知。

        (3)我们设计了语义结构表示模块来显式地引入语义对象的结构和空间信息,以实现更准确的特征匹配。

2.相关工作

        形式上,我们的方法由两个主要步骤组成:特征匹配和图像融合。因此,我们回顾一下特征匹配和图像融合的相关资料如下。

        特征匹配。 SIFT[14]是一种局部特征描述子,通过构建尺度空间来检测极值点,并使用梯度直方图来描述特征。 SURF[15]在保持SIFT的尺度不变性的同时,引入Hessian矩阵和积分图像来降低SIFT的复杂度,从而获得更高效的匹配。这些基于传统图像特征(梯度、灰度等)构建的特征描述符无法有效应对不同模态图像的几何和辐射差异。寻求基于其他图像特征构造的描述符来应对这些差异是一个可行的解决方案。

        受益于相位一致性(PC)在提取模态不变特征方面的潜力,基于频域构造特征描述符可以在一定程度上提高跨模态图像的匹配精度。 MSPC[16]将仿射不变区域提取与图像的结构特征相结合,以获得仿射和对比度不变描述符。 OS-SIFT [17] 和 SR-SIFT [18] 等类似 SIFT 的算法为特定模态的特征匹配提供了更好的适应性。 PCSD [19] 结合了非线性扩散和相位相干结构描述符,用于 SAR 和光学图像配准。李等人。 [10]提出了RIFT,它使用FAST[20]在PC图上提取可重复的特征点,然后通过最大索引图(MIM)构造特征描述符,获得了良好的多模态图像特征匹配性能。然而,其对尺度和旋转的弱不变性以及需要消耗大量计算资源限制了其在现实场景中的应用。 SRIFT[21]建立非线性扩散尺度(NDS)空间来构造多尺度空间,在RIFT的基础上实现了尺度和旋转不变性,以及推理速度慢的问题。

图1.不同pipeline的比较。传统的管道以全局图像为中心,其配准和融合语义对象的准确性无法满足高级视觉任务的需求。另一方面,SemLA 以语义为中心,与传统管道相比,它可以为语义对象提供良好配准和融合的图像,从而提升高级视觉任务的性能。

        随着深度学习技术的发展,一些基于深度的方法表现出了强大的特征提取能力。 D2-Net [13]的提出使得在统一框架中处理特征点提取和描述符构建成为一种趋势。 CMMNet [22]在网络浅层构建两分支网络,并在深层共享特征以学习模态不变特征表示。 R2D2 [12] 通过额外学习特征点可靠性来过滤掉不可靠的检测,从而实现更鲁棒的特征匹配。 SuperPoint [23]提出了人造的数据集监督和对比学习方法的结合,以在统一框架中检测和描述特征点。 SuperGlue [24]通过具有注意力机制和最优匹配层的图神经网络(GNN)实现高效的特征匹配。 ReDFeat [25] 使用相互加权策略重组将多模态特征学习的检测和描述结合起来。作为进一步的方法,LoFTR[11]和COTR[26]认识到仅使用局部特征信息的不足,并引入Transformer[27]来获取远程特征信息并提高不同特征点的可区分性,以实现高级性能特征匹配任务。 MatchFormer[28]、ASpanFormer[29]遵循LoFTR的框架,取得了更稳定的匹配结果。  

        红外和可见光图像融合。由于包含互补信息,红外和可见光图像的融合可以生成丰富的图像信息,促进感知和捕获图像内容中的语义细节[30]。一般来说,红外与可见光图像融合主要包括以下三类方法。

        (1)基于自动编码器(AE)的方法:基于自动编码器的方法通过编码器获取输入图像的特征信息,然后根据手动设计的融合策略融合不同的特征,最后解码器重建输入图像融合的特征。 DenseFuse [31]提出了一种基于卷积神经网络(CNN)和密集块的深度学习架构。继 DenseFuse 之后,NestFuse [32] 开发了基于嵌套连接的网络以及空间和通道注意力模型,从多尺度角度保留输入数据中的信息。 RFN-Nest[33]提出了一种基于残差结构的融合方法。 SEDRFuse [34] 提出了一种带有残差块网络的对称编码器-解码器,用于在夜视应用中融合红外和可见图像。 IFCNN [35]提出了一种基于 CNN 的通用图像融合框架,用于图像重建的端到端训练。 DIDFuse [36]将图像分解为分别包含低频和高频信息的背景和细节特征图,然后使用解码器恢复原始图像。刘等人。 [37]提出了一种通过从粗到精的架构学习多模态图像的多尺度特征的方法,并设计边缘引导的注意机制来引导聚焦于常见结构的融合。

         (2)基于卷积神经网络(CNN)的方法:与基于AE的方法不同,基于CNN的方法设计不同的损失函数和网络结构,通过测量融合图像与源图像之间的相似度来实现图像融合。 VIF-Net [38]提出了一个无监督学习框架,并设计了一个由修改后的结构相似性度量和总变异组成的损失函数。 RXDNFuse [39]提出了一种基于聚合残差密集网络的融合方法。 MgAN-Fuse [40]引入了基于双注意力的特征融合模块。 STDFusionNet提出了一种基于显着目标检测的融合网络。 DRF [41]将去纠缠表示应用于红外和可见光图像融合。 U2Fusion[42]提出了一种统一的、无监督的端到端图像融合网络,并使用特征提取和信息测量自动估计相应源图像的重要性。 SeAFusion [1] 提出了一种高级视觉任务驱动的图像融合框架,以集成尽可能多的语义信息。

        (3)基于生成对抗网络(GAN)的方法:通过采用生成对抗网络(GAN)对数据分布进行建模,可以实现从红外和可见光图像生成融合图像的过程。 FusionGAN[43]将图像融合转化为生成器和判别器之间的对抗博弈,开启了通过GAN模型进行图像融合的趋势。 AttentionFGAN [44] 将多尺度注意力机制集成到 GAN 的生成器和判别器中。 SDDGAN [45]引入了语义标签,迫使生成器保留更多语义信息。 TarDAL [46]针对融合和检测的联合问题提出了双层优化公式,并设计了双对抗融合网络。

 3.方法

        本节详细介绍了我们提出的语义引导统一配准和融合方案(SemLA),该方案有效地将语义信息嵌入到端到端框架中,并采用语义指导来实现具有成本效益好的的统一配准和融合。

 3.1.问题表述

Ivi,并提供基于不同模态图像融合的语义互补信息表示。通常,由于场景退化和复杂的失真关系,现有的基于稀疏或密集配准的方法不足以实现图像中所有像素的全局配准,往往会在语义对象周围呈现明显的伪影。为了缓解这个问题,我们采用 SemLA 作为语义优先的学习架构。

图 2. SemLA 结构概述。首先,在网络前端,Iir 和 Ivi 通过轻量级网络获取配准和语义感知功能。接下来,CSC通过跨模态语义校准获得准确的可见语义认知图,然后SSR对语义的空间和结构信息进行编码并与reg结合得到̃reg。通过SFM得到特征匹配结果后,将配准图像输入到SAF,得到最终的融合图像。

3.2.联合特征提取

        一般来说,单独的网络结构实现特定的功能,并且一些方法采用多个并行网络分支,旨在学习特定于不同任务的特征[23,47,48]。然而,这种冗余设计是不必要的,并且会显着增加网络的推理负担。在本节中,我们通过单向联合学习管道实现高效的网络设计,以学习配准和语义感知所需的特征。

3.3跨模态语义感知指导

  

        直观地说,联合训练可以让I ir和I vi中具有相似性和语义属性的对应特征在统一的框架中相互促进。   

3.4.语义结构表示学习 

        对语义信息的良好认识带来了额外的空间结构信息,因为C S A的概率分布可以为匹配特征点提供指导,从而导致更可靠的配准。为了探索CSA中有用的结构模式,我们通过SSR模块学习空间和结构编码信息。卷积神经网络存在归纳偏差,难以捕捉SSR内无序空间分布的信息。为此,我们通过构造预定义的空间网格来显式嵌入特征点的位置分布,其可以定义为:

3.5.语义区域特征匹配

        如第1节所述,目前基于稀疏或密集的红外和可见光图像配准方法无法保证足够的稳定性和精度,从而影响图像融合的质量。与其他方法不同的是,SemLA改变了现有的配准范式,将重点放在后续视觉任务的感兴趣对象上,限制CSA内的特征匹配,并基于此限制推导出语义的最佳转换模型参数。这使得语义对象能够为后续的图像融合任务提供最准确的配准效果。

        得到S.M后,选择大于一定阈值分数的特征点作为对应特征点P的集合。然后我们使用RANSAC[52]剔除P中不匹配的特征点TPS(Thin Plate Splines)[53]算法根据相应的特征点恢复红外和可见光图像之间的几何关系。

        当使用 TPS 执行图像空间变换时,我们有两种选择。

        (i)采用红外到可见光的方法,将红外图像与可见图像的空间坐标对齐,融合图像呈现可见图像的背景信息和语义对象的融合信息。

        (ii)采用可见光到红外的方法,将可见光图像与红外图像的空间坐标对齐,融合图像呈现红外图像的背景信息和语义对象的融合信息。

        在图 4 中,我们比较了这两种方法,并观察到这两种方法都可以为语义对象呈现互补的跨模态信息。然而,通过可见光到红外配准获得的融合图像缺乏足够的背景纹理信息,而红外到可见光配准保留了可见图像的所有细粒度纹理。

图4.不同空间变换方法的比较。通过可见光到红外生成的图像与通过红外到可见管道生成的图像具有不同的信息保留。

 3.6.语义增强图像融合

        作为我们方法的最后一步,图像融合旨在从不同模态图像中收集互补信息,从而提供超越单一模态的成像能力,并促进对其他视觉任务的认识。最近的研究利用语义约束来指导模型训练,已经证明了它们更好地促进高级视觉任务的潜力,语义信息的集成在图像融合领域受到越来越多的关注。

        与这些使用分割模型在训练期间隐式强制语义约束的方法相比,SemLA 在整个配准和融合过程中集成语义,并通过 显式约束融合图像中语义信息的保留。

       如图5所示,我们的语义增强融合(SAF)模块被设计为自动编码器结构,使用多个卷积层为配准图像对Iir reg和Ivi提取特征 ir f和 vi f。为了增强融合图像中的语义信息表示并显示直观的视觉效果,我们提出了语义场景差异保留融合规则,以通过语义主导的配准过程来适应图像融合效果。具体来说,对于配准图像对Iir reg和Ivi中的共享语义区域CSAir reg,我们首先将CSAir reg上采样到与Iir reg和Ivi相同的大小,以获得CSAir up。然后将 ir f 和 vi f 以加权方式融合,以有效地表示红外和可见光图像中语义对象的互补信息。而对于CSA之外的场景信息,我们尽可能保留可见图像的信息。整个过程可表示为: 其中 α 和 β是权重因子。作为图像融合操作的最后一步,具有 Tanh 激活函数的 Jconv 块生成基于 f 的融合图像 Ifusion。通过这种方式,我们在语义对象中呈现了红外图像的显着信息和可见图像的详细信息。同时,将非语义对象(场景)信息设置为可见图像中的场景信息,可以更好地突出语义对象的显着性,有效减轻图像融合时重叠区域划分时产生的视觉干扰。

3.7.损失函数

        我们的 SemLA 分三个阶段进行训练。为了实现完整的功能,我们为 SemLA 设计了三个损失函数。损失函数包括:

图 5. 语义增强融合(SAF)模块的描述。对齐的红外和可见光图像由四个卷积层提取特征。然后基于语义场景差异保存融合规则,在ir reg 的指导下分别进行语义和场景的融合。最后,通过JConv和Tanh组成的Decoder重建融合图像。

        (1)配准和语义意识联合损失rs。正如3.2中提到的,SemLA的骨干网络通过单向链路获得配准和语义感知所需的功能。为此,rs 由[11]中的匹配损失c 和语义意识损失s 组成,可以表示为:

        (2) 语义约束损失sc。 CSC和SSR的学习被设置为一个相互制约的过程。为了使SSR能够编码更准确的空间结构特征,CSC对vi进行校准,使其空间分布更类似于ir的结构。另一方面,更准确的vi也促进了SSR编码的特征更有效的特征匹配结果。因此,与 c 类似,sc 使用特征 ̃rierg 和 ̃rveig 的匹配损失来表示。

        (3)图像融合损失f。为了有效保留红外和可见光图像之间的互补信息,我们使用强度损失int和结构相似性(SSIM)损失ssim组成f。可以表示为:

4. 实验

        本节介绍实现细节,随后进行大量实验来证明SemLA 的有效性和优越性: (1) 4.1 中的特征匹配。将所提出的 SemLA 与最先进的特征匹配技术进行比较,以衡量不同方法的进步。 (2)4.2中的图像配准与融合。比较不同方法在整个图像配准和融合流程中的性能。 (3)4.3中计算效率的比较。比较不同方法的参数数量和推理时间。 (4) 4.4 中的消融研究。总结对我们的 SemLA 模块的一些见解。 (5) 4.5 中的应用。报告 SemLA 在促进其他高级视觉任务方面的表现。

        实施细节。使用六种特征匹配方法进行特征匹配实验比较:R2D2 [12]、RIFT [10]、SuperPoint [23](SP) + SuperGlue [24](SG)、LoFTR [11]、MatchFormer [28]、ReDFeat [25]。上述基于特征匹配的方法和三种附加的基于密集变换场的方法,ReCoNet [5],UMF-CMGR [7],SuperFusion [8]结合六种图像融合方法FusionGAN [43],IFCNN [35],RFN-Nest [33]、U2Fusion [42]、TarDAL [46]、SeAFusion [1]用于图像配准和融合实验的比较。所有参赛者都是基于公开的代码和他们自己的默认参数设置来实现的。我们使用 COCO 和 IVS 数据集训练 SemLA。为了适应红外和可见光图像的不同模态并使网络直接学习模式不变特征,我们使用 CPSTN [7] 为 COCO 和 IVS 数据集生成相应的伪红外图像。在训练阶段:(1)Ereg和Esa使用Adam优化器最小化损失rs,λ = 0.4,学习率为3e−4,使用COCO和IVS数据集。 gt c 是通过对COCO数据集及其对应的伪红外图像进行随机旋转、缩放和投影生成虚拟对应特征点而得到的。 COCO 数据集的批量大小为 64,IVS 数据集的批量大小为 32,训练在 15 个 epoch 后停止。 (2) 保持Ereg和Esa参数不变,CSC和SSR最小化损失cb,使用Adam优化器,学习率为4e−5,使用IVS数据集。 gt sc 是通过对IVS数据集及其对应的伪红外图像进行随机旋转、缩放和投影,生成虚拟对应特征点而得到的。批量大小为 96,训练在 5 个 epoch 后停止。 (3) SAF 使用 Adam 优化器最小化损失 f ,学习率为 1e−4,使用 COCO 数据集。批量大小为 128,训练在 1 个 epoch 后停止。所有训练均通过 Pytorch 在配备 3.60 GHz Intel Core i7 11700k CPU 和 2 NVIDIA GeForce GTX 3090 的 PC 上进行。值得注意的是,由于 IVS 数据集包含有关行人语义意识的丰富基础事实。因此,在实验部分,我们将SemLA的语义感知对象限制为行人。

        数据集。为了实现直接和公平的比较,我们提供了我们收集的一系列未对齐图像对以及三个公开可用的数据集的实验结果:

        (a)MSRS数据集。该数据集基于 MFNet 数据集构建,其中包含全面的多光谱图像集合,重点关注道路场景。此外,它由 1444 对排列良好的红外和可见光图像组成,其中包括 715 对白天图像对和 729 对夜间图像对。

         (b) MFD 数据集。该数据集包含 4500 对对齐的红外和可见图像,涵盖涵盖不同环境、照明条件、季节和天气的四个主要场景。

        (c) RoadScene 数据集。该数据集是一个多模态数据集,可作为评估图像融合技术有效性的基准。它由 221 对对齐的可见光和红外图像组成。这些图像描绘了各种丰富且具有代表性的场景,包括道路、车辆和行人,并且源自 FLIR6 视频片段。

        评价标准。为了比较不同特征匹配方法之间的性能,其中包括基于检测器的[12, 23-25]和无检测器的[11,28]方法作为竞争对手,我们选择了相应特征点(NC)的数量,正确对应的特征点(NCC)和匹配精度(MA)作为定量指标。 MA 计算如下:    请注意,我们执行两种类型的特征匹配评估。一类是图像全局评估,与其他竞争对手匹配方法相同。对于 SemLA,我们直接在式15中设置阈值 γ = 0,获取图像全局对应的特征点。另一种是语义面向对象的特征匹配评估,衡量语义内部不同方法的匹配潜力。

        我们选择 MSRS(38 对)、M3F D(87 对)和 RoadScene(12 对)数据集中的 137 个具有语义对象的图像对作为测试集,并使用由以下组成的变换 H 在测试集上生成不同的几何扭曲:一系列随机旋转、随机缩放和随机透视变换。重投影误差小于8px的对应特征点被认为是正确的特征点对。

        为了比较不同配准和融合方法之间的计算效率,我们选择模型参数大小(Params.(MB))和运行时间(RT(ms))作为直观的量化指标,以真实反映不同方法的资源需求和效率-世界应用场景。

4.1.特征匹配结果

        定量结果。由于显着的非线性外观差异,包括几何变换在内的多模态图像面临的退化问题变得更加复杂,导致形成复杂的匹配模式。表2量化了七种方法在不同外观差异数据集中的匹配性能。我们可以清楚地观察到,SemLA 在所有类型的测试数据集中的特征匹配指标均优于其他六个,为稳定的特征匹配带来了希望。一般来说,RIFT可以获得一些对应的特征点,但是尺度和旋转的变化削弱了其描述子的可靠性。 R2D2无法适应图像模态的变化,导致无法达到满意的匹配结果。受益于Self-Attention和Cross-Attention带来的更大的感知领域,SuperPoint+SuperGlue、LoFTR和MatchFormer能够更好地区分不同的特征点。然而,这种计算成本很高,并且图像模态差异会降低这种计算的好处。虽然 ReDFeat 表现出较高的匹配精度,但其对缩放和旋转变换的鲁棒性较低,导致相应特征点的产量降低。与现有流行方法相比,SemLA 的良好性能表明它在大多数场景下具有更好的匹配能力,为稳定、准确的图像融合提供了有利条件。

        定性结果。为了给出更直观的结果,图6 展示了7种算法在多个测试数据集下的特征匹配结果。可以看出,我们的 SemLA 在大多数场景中生成了更多对应的特征点,用于图像全局和面向语义的特征匹配,这对于图像配准和融合至关重要。

 4.2.图像配准和融合的结果

        图像配准和融合之间的协调对于产生准确且有意义的视觉表示至关重要。在这部分实验中,我们首先展示了 SemLA 在一组代表性红外和可见光图像对上的可视化结果(见图 7)。直观地表明,SemLA 在不同的挑战性场景中表现出了良好的性能,融合图像中语义信息的有效整合为其潜在应用提供了良好的前景。

        为了评估整个流程中不同方法的性能,我们结合了现有的高级配准和融合方法。图8显示了包括SemLA在内的多种特征匹配方法与其他融合方法相结合的性能,以证明配准精度在后续图像融合中的重要性。可以看出,与其他特征匹配方法相比,SemLA能够更好地适应不同的融合方法,并提供融合图像更准确的表示。相比之下,其他方法不加区别地匹配图像的不同内容信息,导致场景和语义对象的配准精度不平衡,从而在融合图像中产生大量伪影。

图 6. 在三个公开数据集上进行特征匹配实验的结果。内部值(绿线)和异常值(红线)衡量特征匹配的性能。每种特征匹配方法都包含两种匹配类型:全局匹配和面向语义对象的特征匹配。其中语义约束区域由SemLA生成。

               图 7. 我们的 SemLA 在三个典型场景上进行图像配准和融合的可视化结果。

        为了对不同方法进行更完整的比较,我们还将 SemLA 与在统一框架中处理配准和融合的现有解决方案进行了比较。从图9中我们可以看出,SemLA提供了稳定的配准和融合结果,而ReCoNet只能适应图像中的小变形,在更复杂的场景中无法获得有效的结果。 UMF-CMGR依赖于风格迁移的稳定性,在光照不足、纹理复杂的场景中效果较差。另一方面,SuperFusion对于小变形和透视差异取得了令人满意的结果,但它不太适合具有较大变形和尺度差异的图像,这限制了它的应用。        

        现有的融合指标仅适用于对齐良好的图像融合,无法有效反映所涉及的空间配准精度。此外,由于对齐图像没有基本事实,因此我们在这部分实验中不对融合图像进行定量分析。

 4.3.计算效率对比

        现阶段,不同模型的充分适用性取决于其推理速度是否能够满足现实场景的需求。在这部分实验中,我们评估了配准和融合管道中不同模型组合的参数数量和推理时间。如表 3 所示,我们在 2.90 GHz Intel Core i5 10400 CPU 和 NVIDIA GeForce GTX 1660 上测试了不同的模型组合,输入图像尺寸为 240 × 320,其中 RIFT 不是基于深度学习的方法,因此不具有参数编号的值。 可以观察到,不同的方法在流水线中的推理时间差异很大。相比之下,采用统一框架构建的ReCoNet、UMF-CMGR、SuperFusion和SemLA方法具有相对的速度优势,且模型参数数量适中,可以满足不同设备的存储和计算需求。特别是,我们的SemLA比第二快的ReCoNet方法加速了37.50%,确保了模型在实时速度下的高效运行,为其在现实场景中的应用提供了有利条件。

图8.图像配准和融合实验的可视化结果。上图是实验中原始未对齐的红外和可见光图像。下半部分显示了每种特征匹配方法与高级图像融合方法相结合后融合图像的可视化结果。

                                     图 9.统一框架中处理配准和融合的四种方法的比较结果。

4.4.消融研究

        在SemLA中,我们将语义信息很好地融入到各个模块中,以尽可能地探索语义给配准和融合带来的变化。为了评估我们设计的影响,我们通过消融实验检查了 SemLA 架构的各种模块的性能,以确定通过不同配置可以实现的潜在性能增益。

        定性结果。我们首先重复4.1中的实验,考虑SemLA中的CSC和SSR对语义对象特征匹配结果的贡献。表4中可见光图像去除CSC后语义感知不稳定,增加了语义区域外误匹配的对应特征点数量,降低了匹配精度。另一方面,由于缺乏语义结构信息,去除SSR后特征的鲁棒性降低,从而导致对应特征点数量和匹配精度下降。

        定量结果。图10中的视觉配准和融合结果体现了各个组件的重要作用,我们首先评估CSC对可见光图像语义信息感知的影响,可以看到大多数情况下红外图像的显著语义信息可以很好的被感知到。 对于可见图像,由于光照和纹理的变化,在某些场景中无法用相同的方式提取准确的语义信息。通过CSC模块的引入,对可见图像的语义感知进行了精确校准。

        在图 10 的下半部分,我们展示了 SSR 和 SFM 对于配准和融合的重要作用。可以看出,SSR通过整合跨模态的语义结构信息提供了更准确的对应特征点。另一方面,SFM通过语义辅助信息将特征匹配结果限制为CSA。这种聚焦匹配为语义对象带来了更准确的融合结果,并避免了因对象与场景失真不一致而导致的配准困难。  

  图 10. 上图:比较 CSC 模块在不同场景中可见图像语义感知中的作用。下:比较SSR模块和SFM对于配准和融合结果的作用。

4.5.应用

        为了进一步解释SemLA在实际应用中的可扩展性,我们评估了SemLA在图像拼接、单目深度估计、人体姿态估计和3D重建方面的性能。

 4.5.1.图像拼接

        图像拼接将同一场景的不同视图的图像组合成单个全景图像,在摄影、测量、虚拟现实等各个领域有着广泛的应用。我们选择性能良好的配准方法MatchFormer和ReDFeat作为比较,并使用SeAFusion对其进行图像融合。图11的上半部分显示了不同方法对两个融合图像进行Fusion-Fusion图像拼接的效果。下图展示了融合-可见光图像拼接的效果,融合后的图像与可见光图像进行拼接。可以看出,MatchFormer和ReDFeat是在图像全局进行特征匹配和融合,这种流程不可避免地会在划分融合图像的重叠区域部分带来明显的差异,并在拼接结果中呈现轮廓线,影响视觉效果图像。相比之下,SemLA通过语义主导配准和融合过程,以获得更加准确、和谐的拼接图像视觉效果。

图 11. 上图:通过处理融合图像进行拼接时三种表现良好的方法的性能。下:将融合图像与附加可见图像拼接的视觉结果。

 4.5.2.人体姿势估计

        人体姿势估计在人机交互和视频监控等各种应用中发挥着重要作用。在本节中,我们使用 OpenPose [54] 生成姿态估计结果,以评估不同图像配准方法对姿态估计任务的影响。特别是,ReCoNet、UMF-CMGR、SuperFusion 和 SemLA 在各自的框架中处理配准和融合任务,其他配准方法与 SeAFusion 结合生成融合图像。值得注意的是,为了展示 SemLA 融合在语义对象中的优势,我们还比较了使用组合 SemLA 进行配准和 SeAFusion 进行融合(表示为 SemLA+SeA)的姿态估计结果。如图 12 所示,不准确的配准精度会降低源图像的质量,生成不准确或不完整的结果,这对于其他方法在某些情况下处理可能具有挑战性。此外,这些伪影可能会为同一对象生成多个姿态估计结果,从而导致动作识别和视频监控等应用中的混乱和不正确的结论。与其他方法相比,SemLA可以基于融合图像提供更准确的姿态估计,使其更适合实际应用。

 

图12.姿态估计网络对不同方法生成的融合图像获得的可视化结果。特别地,正确的姿态估计用绿色框标记,不正确的姿态估计用黄色框标记,失败的姿态估计用红色框标记。

4.5.3.单目深度估计

        单目深度估计旨在从单个 2D 图像中估计场景的深度信息。为了比较不同方法在深度估计任务上的性能,我们使用 SwinTransformerV2-MIM [55] 生成融合图像的深度图。如图13所示,其他方法的配准和融合结果与4.5.2中实现的相同。不同方法获得的融合图像在深度估计结果上存在显着差异,这是由于配准精度的差异以及全局图像融合生成的重叠区域划分器的视觉差异所带来的不同程度的伪影造成的干扰。深度估计。而SemLA的稳定配准与融合为图像中语义对象提供了鲁棒的信息表示,从而有效地将深度图中对象的深度信息与背景区分开来。这为需要关注语义对象深度信息的应用(如增强现实(AR)、自动驾驶等)开辟了更多可能性。

 

         图13.深度估计网络对不同方法生成的融合图像获得的可视化结果。

4.5.4.融合图像的 3D 重建

        3D重建是将一组2D图像生成物体或场景的3D模型或表示的过程。在本节实验中,我们比较了使用不同方法生成的融合图像进行三维重建的结果,以反映不同配准和融合方法对三维重建任务的影响。我们收集了133对同一场景的红外和可见光图像,并使用各种方法生成了一系列融合图像。然后将这些融合后的图像输入到COLMAP[56]中进行三维重建,从而生成密集的点云。我们比较的方法包括MatchFormer、ReDFeat和SemLA。对于Matchformer和ReDFeat,我们使用了SeAFusion作为融合方法,我们也提供了SemLA与SeAFusion结合后的重建结果(SemLA+SeA)。从图14可以看出,由于配准精度不够,MatchFormer和ReDFeat无法获得有效的重建结果。另一方面,SemLA+SeA和SemLA实现了精确配准,在3D环境中正确显示语义对象和场景信息。此外,从图14中可以观察到,SemLA+SeA和SemLA相比使用原始可见图像进行三维重建,可以为语义对象生成更密集的点云。

图14.不同方法生成的融合图像的可视化3D重建结果。

5. 结论

        在本文中,我们提出了一个通过语义信息进行统一配准和融合的框架。该管道基于轻量级网络,显式嵌入语义空间结构特征,同时实现精确的语义校准,并通过设计有效的语义对象特征匹配范式和融合方法取得了良好的性能。实验表明,SemLA相对于最先进的方法具有良好的性能,能够更好地应对图像中的几何和辐射畸变,并且对不同场景具有更好的适应能力。

        值得注意的是,SemLA 目前存在三个主要缺点。首先,为了追求特征匹配速度,牺牲了一定的特征点定位精度。其次,由于训练数据的限制,SemLA目前缺乏小物体的语义感知。第三,如果可见图像中的语义对象被完全遮挡,则用于语义目的的配准和融合将失败。解决这一问题的方法之一是调整SemLA的参数配置,进行全局特征匹配,以获得全局最优的配准结果。在未来的工作中,我们的目标是设计一个有效的特征点定位校准模块,以实现更鲁棒的配准和融合结果。此外,我们将努力收集更多类型的语义对象数据,以增强 SemLA 的适用性。

        作者声明,他们没有已知的可能影响本文报告工作的相互竞争的经济利益或个人关系。

CRediT 作者贡献声明

        谢厚生:概念化、方法论、软件、验证、形式分析、调查、资源、数据管理、写作 - 初稿、写作 - 审查和编辑、可视化。

        张玉宽:形式分析、调查、资源。邱俊辉:形式分析、调查、资源。

        翟香帅:调查,资源。

        刘学东:调查、资源。

        杨阳:资源、监督、写作——初稿。

        赵山 :调查、监督、写作、审稿和编辑。

        罗永芳:数据整理、写作——初稿。

        钟建波:监督。  、

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值