多模态学习（四）：可见光-红外图像配准：2025Visible–Infrared Image Alignment for UAVs: Benchmark and New Baseline论文详解

随着多传感器在无人机（UAVs）中的广泛使用，多模态信息处理已成为研究重点。在无人机目标检测和跟踪任务的学术研究中，研究人员通常将可见光-红外图像对的对齐作为预处理步骤。然而，在实际任务中，无人机获取的双模态图像对往往是未对齐的，这显著限制了下游任务的应用。目前，尚无公开可用的无人机多模态图像对齐数据集。本文提出了一个大规模的双模态图像对齐任务基准数据集，包含81,000对训练图像和15,000对测试图像对。同时，我们提出了一个基于Transformer的双模态图像对齐网络作为该基准的基线。首先，该算法提取多尺度特征用于图像表示，以解决分辨率不同的未对齐图像对问题。其次，提出了一种基于Transformer的对齐网络，以改进异构模态特征的融合。最后，采用可变形注意力机制来缓解内存爆炸问题。我们在这个双模态图像对齐基准上进行了大量实验，以证明我们算法的有效性。源代码可在 https://github.com/gaozhinanjiu/UAVmatch 获取。

1.2 摘要解析

背景与研究意义：

无人机（UAVs）因其灵活性和多功能性，在军事、农业、灾害救援等领域应用广泛。多传感器（如可见光相机和红外相机）的集成使得无人机能够获取多模态数据（multimodal data），即同时采集可见光图像（反映颜色和细节）和红外图像（反映热信息）。然而，这两种模态的图像通常由于传感器位置、视角或时间差异而未对齐（unaligned），这对下游任务（如目标检测、跟踪）造成挑战。文章指出，目前学术界缺乏针对无人机场景的公开多模态图像对齐数据集，因此提出一个大规模基准数据集和新的基线方法，填补这一空白。

数据集介绍：

规模：训练集81,000对，测试集15,000对，总计96,000对图像。这是一个大规模数据集，足以支持深度学习模型的训练和评估。
任务：双模态（可见光-红外）图像对齐，即将两张图像的空间坐标对应起来，通常涉及几何变换（如平移、旋转、缩放）。
意义：公开数据集的缺失限制了算法的标准化比较和实际应用，该数据集为研究者提供了一个统一平台，推动无人机多模态处理的进步。

基线方法：基于Transformer的双模态图像对齐网络

文章提出了一个新的算法作为基准，包含三个核心创新点：

1.多尺度特征提取（Multiscale Feature Extraction）：

目的：解决图像分辨率不同的未对齐问题。无人机拍摄的图像可能因传感器分辨率或距离变化而大小不一。
实现：通过卷积神经网络（CNN）提取多尺度特征（如使用特征金字塔网络FPN），生成不同分辨率的特征图。这些特征图能够捕捉图像的全局和局部信息，增强对齐的鲁棒性。

多尺度表示在图像对齐中至关重要，因为传统的单尺度方法可能无法处理大范围的错位或畸变。

2.基于Transformer的对齐网络：

目的：改进异构模态（visible和infrared）特征的融合。可见光和红外图像的物理特性差异较大，直接融合可能导致信息丢失。
实现：利用Transformer的自注意力机制（self-attention）建模特征间的长距离依赖关系，增强跨模态的关联性。Transformer在自然语言处理中表现出色，近年被引入计算机视觉任务（如Vision Transformer, ViT），其全局建模能力适合多模态对齐。

相比传统基于局部特征匹配的方法（如SIFT或ORB），Transformer能更好地捕捉模态间的语义关系，提高对齐精度，尤其是在复杂场景下。

3.可变形注意力（Deformable Attention）：

目的：缓解内存爆炸问题。标准的Transformer计算复杂度为
𝑂(𝑁2)，其中 𝑁 是输入特征点数，在高分辨率图像中会导致内存占用激增。
实现：采用可变形注意力（参考Deformable DETR），只关注关键区域的特征点，而不是对所有点进行全局计算，从而降低计算和内存需求。

这是对Transformer的优化，使其更适用于资源受限的无人机系统，同时保持对齐性能。
方法的工作流程：

输入未对齐的可见光-红外图像对。
通过CNN提取多尺度特征表示。
Transformer网络融合两模态特征并预测对齐变换（如仿射变换参数）。
可变形注意力优化计算效率。
输出对齐后的图像对。

二. introduction

2.1 intro翻译

随着多种类型传感器的广泛使用，多模态图像因其在多种场景下的互补性和鲁棒性而越来越受到关注，特别是在自动驾驶和无人机（UAV）图像处理领域[1]。配备多种传感器的无人机为高效获取全面场景信息提供了一种新方法[2]。通过分析无人机捕获的多传感器图像数据，研究人员可以从图像中提取更详细的感知信息，并显著拓宽无人机的应用范围。目前，可见光-红外成像被广泛用于无人机目标检测[3]、目标跟踪[4]以及其他多个领域。当前的无人机双模态图像处理工作主要集中在双模态图像融合上，假设不同模态的对齐已经完成[4],[5]。然而，由于图像采集设备的限制，无人机捕获的可见光-红外图像往往未对齐，需要离线预对齐，这显著阻碍了无人机双模态图像处理算法的实际应用。此外，无人机载荷通常包括可见光和红外设备，其中可见光设备包括广角相机和变焦相机（见图1）。广角相机提供固定的焦距和宽广的成像视野，而变焦相机提供可变的焦距以放大不易观察的小目标[6]。与可见光设备相比，红外设备包括具有预定成像视野的固定焦距相机。

在无人机双模态地面目标检测和跟踪的背景下，结合变焦可见光相机和红外相机对于有效完成无人机地面目标的检测和跟踪任务至关重要。由于不同模态图像之间的尺度、平移和旋转差异，对齐双模态图像是双模态图像处理算法不可或缺的前提[7]。在近期研究中，图像对齐方法通常分为传统方法和基于深度学习的方法。传统方法涉及从图像中提取特征点对，并根据特征关系计算变换参数，例如尺度不变特征变换（SIFT）[8]。为了提高特征点对的准确性，通常使用随机采样一致性（RANSAC）[9]算法来消除异常特征点对。传统方法在可见光图像对齐中被广泛使用，但对于双模态图像，不同模态之间较弱的特征相关性使得找到正确的特征点对变得困难。基于深度学习的图像对齐算法已成为主流。

基于深度学习的方法利用神经网络强大的特征提取能力从图像中提取特征，随后通过利用特征之间的相关性完成图像对齐任务。Cnngeometric[10]使用相关矩阵来建模特征之间的相关性。这种方法是一种密集匹配方法，仅考虑特征对之间的关系，而不考虑全局特征关系。LOFTR[11]使用Transformer来建模特征之间的关系，可以考虑全局特征关系以避免受到异常特征对的影响。然而，LOFTR是一个两阶段匹配过程，导致计算成本高且效率低。

目前，双模态图像对齐算法的发展远远落后于可见光图像对齐算法，且针对无人机（UAV）可见光-红外双模态图像对齐尚未出现具有影响力的工作。与传统图像相比，无人机图像具有独特的特性，例如成像距离远、成像范围广以及目标特征小。这些独特属性为无人机图像配准带来了新的挑战，特别是在图像中微小目标的提取和利用方面。需要强调的是，无人机非常规的成像视角使得依赖传统图像对齐任务的数据集来解决无人机图像对齐问题变得不切实际。与可见光图像对齐相比，主要有三大挑战。首先，与无人机目标检测类似，从无人机视角捕获的图像中的目标具有不同的尺度。因此，在图像对齐任务中充分提取多尺度特征用于图像表示至关重要[3]。其次，异构模态图像的特征存在差异。可见光图像具有丰富的纹理特征，而红外图像具有清晰的轮廓[5]。解决异构模态之间的差异对于双模态图像对齐任务至关重要。第三，缺乏可用于训练和评估的无人机双模态对齐数据集。目前没有直接可用的无人机双模态对齐数据集，这阻碍了无人机双模态对齐算法的发展。

为了解决上述问题，我们提出了一个针对无人机双模态图像对齐任务的大规模基准数据集，为无人机双模态对齐任务提供了可用的训练和评估数据集。同时，我们提出了一个基于Transformer的双模态图像对齐网络用于无人机。我们的算法利用可变形注意力机制[12]来解决从无人机图像中提取多尺度特征的问题。我们在数据集上进行了大量实验，以展示算法的有效性。主要贡献如下：1）基于现有的无人机双模态数据集提出了一个无人机双模态图像对齐基准。据我们所知，这是首个针对可见光-红外图像对齐任务的基准，为无人机上的下游双模态任务铺平了道路。2）为该基准提出了一个双模态图像对齐基线。从未对齐的图像对中提取多尺度特征，分别用于粗略和精细的图像表示。使用可变形注意力解决内存爆炸问题。同时，采用双模态聚合网络来解决异构模态之间的差异。3）我们在数据集上使用我们的算法进行了广泛的实验，并与几种现有图像对齐算法进行了比较。结果表明，我们的算法表现出色且能够实时运行。本文的其余部分组织如下。第II节简要回顾了图像对齐的相关文献。第III节详细介绍了合成无人机双模态对齐数据集的方法。第IV节主要介绍了我们提出的用于无人机的双模态图像对齐算法。第V节和第VI节分别是实验结果和结论。

2.2 Intro解析

背景与研究现状：

多模态图像处理因其在自动驾驶和无人机（UAV）领域的互补性和鲁棒性而备受关注。无人机通过集成多种传感器（如可见光和红外相机）获取综合场景信息，为目标检测、跟踪等任务提供支持。然而，双模态图像对齐（特别是可见光-红外对齐）是这些任务的前提，而当前研究在这方面明显滞后。上文提到，现有双模态图像处理多集中于融合，假设对齐已完成，但实际中无人机图像未对齐，限制了应用。本文进一步指出，双模态对齐算法发展落后于可见光对齐，且无人机场景尚未有标志性工作，凸显了研究的紧迫性。

无人机图像的独特挑战：

与传统图像相比，无人机图像具有以下特性：

远距离成像：目标在图像中占比小，细节少。
宽广视野：覆盖大范围场景，尺度变化大。
小目标特征：微小目标难以提取和匹配。此外，无人机的非常规视角（如俯视或倾斜）使得传统图像对齐数据集（如街景或室内场景）无法直接适用。这些特性对双模态对齐提出更高要求。

双模态对齐的三大核心挑战：

1.多尺度问题：

原因：无人机视角下目标大小变化大（如近处建筑和远处车辆）。
需求：需提取多尺度特征以捕捉全局和局部信息。
关联性：与无人机目标检测类似，多尺度特征对对齐和检测都至关重要[3]。

2.异构模态差异：

特性：可见光图像富含纹理（如颜色、细节），红外图像突出轮廓（如热信号边界）[5]。
挑战：传统特征匹配（如SIFT）依赖相似特征，但在双模态中相关性弱。
需求：需设计融合机制处理模态间差异。

3.数据集匮乏：

现状：缺乏公开的无人机双模态对齐数据集。
影响：无法有效训练和评估算法，阻碍技术进步。
解决方案：基准数据集与基线算法

为应对上述挑战，本文提出了：

1.大规模基准数据集：

内容：基于现有双模态数据合成，包含训练和测试图像对。
意义：首个无人机可见光-红外对齐基准，填补数据集空白，为下游任务（如检测、跟踪）奠定基础。
解读：数据集的合成需考虑无人机场景的真实性（如视角、尺度变化），可能是通过仿真或实际采集并标注变换参数实现的。

2.Transformer基线算法：
架构：

多尺度特征提取：从未对齐图像对中提取粗略（coarse）和精细（fine）特征，解决尺度变化问题。
可变形注意力：优化Transformer的内存占用（从 𝑂(𝑁2) 降至更低复杂度），适合无人机实时需求。
双模态聚合网络：融合可见光和红外特征，解决异构模态差异。

创新点：

相比Cnngeometric[10]的局部匹配，Transformer建模全局关系。
相比LOFTR[11]的两阶段匹配，加入可变形注意力提升效率。
解读：可变形注意力（Deformable Attention[12]）是关键优化，聚焦关键特征点，降低计算成本，同时保持精度。

3.实验验证：

方法：在数据集上对比现有算法（如SIFT、Cnngeometric、LOFTR）。
结果：算法兼具高性能和实时性，适合无人机应用。
专家解读：实时性表明算法可能在硬件（如GPU）上优化，或通过模型剪枝进一步轻量化。
与上文的关联分析：

传感器背景：

上文提到无人机载荷（如广角、变焦可见光相机和红外相机）的多样性，本文进一步强调这些设备导致的尺度、平移、旋转差异需对齐解决。

方法对比：

传统方法（如SIFT+RANSAC）因特征相关性弱不适用双模态，与本文挑战一致。
深度学习方法（如Cnngeometric和LOFTR）虽有进步，但局限性（如局部匹配或高复杂度）被本文算法克服。
应用延续：上文提到对齐是融合前提，本文通过基准和基线直接支持下游任务。
技术意义与展望：
贡献：首个无人机双模态对齐基准和高效基线，推动标准化和实用化。
应用：提升无人机在复杂场景（如夜间、远距离）的感知能力。
未来：可扩展至更多模态（如LiDAR），或优化实时性（如嵌入式部署）。

文章结构解析：

第II节：回顾传统和深度学习对齐方法，奠定技术背景。
第III节：数据集合成方法，可能涉及数据采集、标注或仿真。
第IV节：算法细节，包括特征提取、Transformer和注意力机制。
第V-VI节：实验对比和结论，验证可行性。

三. related work

3.1 related work翻译

A. 图像对齐

图像对齐是图像处理中的一项基本任务，旨在通过建立图像对之间的对应关系，对齐从不同视角、传感器和时间捕获的图像[13]。图像对齐问题的核心在于获取图像之间的几何变换参数，使得不同图像中同一空间位置的点能够一一对应。图像对齐方法主要分为两大类：传统方法和基于深度学习的方法。

传统方法主要通过建立手工特征描述子的对应关系，在未对齐的图像中建立特征之间的对应关系，并通过这种密集的特征对应获得图像的几何变换参数。代表性算法包括SIFT[8]、加速鲁棒特征（SURF）[14]、Harris角点检测[15]、Shi-Tomasi角点检测[16]等。基于深度学习的算法进一步分为两类。一类是使用深度学习网络替代传统算法中的特征描述子，这些方法利用神经网络强大的特征表示能力构建密集特征对应，并通过这种密集对应计算图像变换参数[17],[18]。另一类是使用神经网络直接建模特征提取和特征匹配过程，以端到端的方式直接输出对齐结果[10],[19],[20]，大大简化了网络的训练和推理过程。当前的可见光-红外双模态图像对齐算法在学术界明显落后于仅可见光对齐算法。一种常见策略是利用模态变换网络桥接模态之间的差距，然后应用同一模态内的现有对齐方法[21]。然而，这种方法牺牲了不同模态提供的互补信息，并因模态变换网络引入了额外的复杂性。另一种常见方法专注于从图像中提取特征，然后对双模态图像进行对齐[22]。虽然这些方法保留了所有互补模态信息，但往往忽略了双模态图像之间的尺度差异，且未考虑特征之间的全局关系。总之，当前的可见光-红外图像对齐工作主要依赖两阶段网络进行点对提取和匹配，未考虑模态差异和无人机图像的尺度特性。因此，现有方法难以直接应用于无人机捕获的可见光和红外图像对齐。为了应对这些挑战，我们提出了一个专门为无人机应用中可见光-红外图像对齐设计的端到端网络。我们的方法旨在通过有效解决目标尺度变化和提取双模态互补特征来增强对齐效果。

B. 多尺度特征表示

对齐是一项对特征敏感的任务，图像对齐的质量在很大程度上取决于提取特征的质量。在无人机双模态图像对齐任务中，无人机图像展示出不同尺度的各种目标，如房屋、车辆和行人。图像对齐的准确性由这些目标决定。然而，目标之间的显著尺度差异可能导致特征丢失，这凸显了网络具备多尺度特征提取能力以应对不同尺度图像对齐挑战的必要性。多尺度特征提取不同尺度的目标特征，构建更丰富的目标特征表示，同时对于小目标，可以防止目标特征被滤除[3]。因此，多尺度特征表示能力对于无人机双模态图像对齐任务非常重要。在目标检测领域，多尺度特征已被广泛用于可变尺度目标和小目标的检测。目前，主流的多尺度特征表示能力主要通过引入特征金字塔结构实现，如FPN[23]和PANet[24]结构。然而，值得注意的是，引入多尺度特征会使网络更加复杂，并严重影响网络的实时性能[23],[24]。与目标检测算法相比，图像对齐任务涉及处理图像对，因此需要考虑高效计算多尺度特征的方法。可变形注意力机制[12]采用稀疏采样来解决计算多尺度特征的复杂性。在我们的算法中，我们也利用可变形注意力机制来加速算法。

C. 无人机双模态数据集

目前没有公开可用的无人机双模态对齐数据集。大多数无人机双模态对齐算法使用MS-COCO数据集作为预训练数据集[25]，但可见光和红外图像之间的差异显著，这会影响网络的最终结果。现有的无人机双模态数据集主要集中在目标检测[26],[27]和目标跟踪[28],[29]领域。为了缓解无人机双模态图像对齐数据集的稀缺性，我们通过从双模态目标检测和跟踪数据集中合成的方法生成了一个无人机双模态对齐数据集。

3.2 related work解析

A. 图像对齐

技术背景与分类：

图像对齐是图像处理的核心任务，旨在通过几何变换（如仿射变换或单应性变换）使不同来源的图像在空间上对齐。其本质是找到图像间的对应关系（correspondences），以计算变换参数。传统方法依赖手工特征（如SIFT[8]、SURF[14]、Harris[15]、Shi-Tomasi[16]），通过特征点匹配和优化（如RANSAC）计算变换。这些方法在可见光图像对齐中效果良好，因特征（如角点、边缘）明确，但在双模态（如可见光-红外）场景中，因模态间特征相关性弱而失效。

深度学习方法分为两类：

特征增强型：用神经网络替换手工特征（如[17],[18]），生成密集特征图，再计算变换参数。优点是特征更鲁棒，但仍依赖传统匹配逻辑。
端到端型：直接建模特征提取和匹配（如Cnngeometric[10]、[19],[20]），输出变换参数，简化流程，提高效率。

双模态对齐的现状与问题：

可见光-红外对齐落后于单一模态对齐。现有方法包括：

模态变换策略：通过网络（如[21]）将红外转为可见光样式，再用可见光对齐方法。这种方法虽可利用成熟算法，但丢失了红外独有的热信息，且模态转换增加复杂度。
特征提取策略：直接从双模态图像提取特征后对齐（如[22]）。保留互补信息，但忽略尺度差异和全局特征关系，效果受限。

无人机场景下，这些方法的问题更明显：

两阶段设计：特征提取和匹配分离，计算复杂。
忽视无人机特性：未考虑远距离、小目标、尺度变化等。

解决方案：

本文提出端到端网络，针对无人机可见光-红外对齐优化：
目标：解决尺度变化，提取互补特征。
优势：避免两阶段分离，直接输出对齐结果，提升效率和精度。

B. 多尺度特征表示

重要性：

对齐依赖特征质量，而无人机图像因视角远、范围广，目标（如房屋、行人）尺度变化大。单一尺度特征易丢失小目标信息，多尺度特征通过提取不同层次特征（如全局轮廓和局部细节）增强表示能力[3]。在目标检测中，特征金字塔（如FPN[23]、PANet[24]）已被验证有效，但其复杂度影响实时性。

挑战与优化：

对齐任务需处理图像对，计算量较检测更大。传统多尺度方法（如FPN）虽有效，但计算成本高。本文采用可变形注意力（Deformable Attention[12]），通过稀疏采样聚焦关键特征点，降低复杂度（从 𝑂(𝑁2) 到 𝑂(𝑁𝐾)，𝐾，在保持精度的同时提升效率。

解读：
多尺度特征是无人机对齐的关键，因其能适应远近目标的多样性。可变形注意力结合Transformer的全局建模能力，是实时性与性能的平衡点。

C. 无人机双模态数据集

现状：
无人机双模态对齐缺乏专用数据集。现有算法多借用MS-COCO[25]预训练，但其可见光数据与红外差异大，效果不佳。无人机数据集多集中于检测（如[26],[27]）和跟踪（如[28],[29]），未针对对齐优化。

解决方案：
本文通过合成方法，从检测和跟踪数据集生成对齐数据集。可能是通过已知变换参数或仿真添加错位，生成可见光-红外图像对。

解读：
合成数据集需模拟无人机特性（如视角、尺度变化），确保真实性。此举填补数据空白，为算法开发提供基础。

综合分析：

本文针对无人机双模态对齐的三大挑战（尺度变化、模态差异、数据缺乏）提出系统性解决方案：
端到端网络：克服传统两阶段方法的低效和模态转换的局限。
多尺度与可变形注意力：解决尺度问题并优化计算。
合成数据集：提供训练和评估平台。
与前文相比，本文深化了技术细节（如算法设计和数据集构建），为无人机多模态处理提供了实用工具。未来可优化实时性（如硬件加速）或扩展至更多模态（如LiDAR）。

四.无人机双模态对齐数据集

4.1翻译

目前没有公开可用的无人机双模态对齐数据集。一个可行的解决方案是利用生成方法来制作所需的对齐数据集。例如，可以通过变换MS-COCO数据集[30],[31]来获得可见光对齐数据集。我们也采用了相同的方法来生成无人机双模态对齐数据集。该数据集如图2所示。

图 2. 数据集是使用合成方法为 DroneVehicle 数据集生成的。仿射变换（Affine Transformation）和单应性变换（Homography Transformation）分别应用于数据集，以模拟各种场景。

A. 图像几何变换

图像的几何变换是通过某种数学运算将一组图像数据映射到另一组图像数据的操作[32]。对于图像数据而言，它是将一张图像中的坐标位置映射到另一张图像中的新坐标位置。对于不同类型的传感器，不同传感器捕获的图像对存在空间差异，例如尺度、平移和旋转的变化。因此，应用几何变换来消除空间差异是图像预处理的关键步骤。常用的几何变换主要分为两类：仿射变换和单应性变换。仿射变换是一种具有6个自由度的线性变换，能够建模平移、旋转、非各向同性缩放和剪切。它可以通过一个6维向量 $\theta_{AFF} = \begin{bmatrix} a_{11} & a_{12} & t_x \\ a_{21} & a_{22} & t_y \end{bmatrix}$ 参数化。对于图像 $I_a$ 和 $I_b$ ,点 $P_B=[X_B,Y_B]^T$ 根据以下公式映射到点 $P_A=[X_A,Y_A]^T$ ：

$P_A = \begin{bmatrix} a_{11} & a_{12} \\ a_{21} & a_{22} \end{bmatrix} P_B + \begin{bmatrix} t_x \\ t_y \end{bmatrix}$

为了描述图像平面之间的投影变换，可以引入参数 $V_T=[v_1,v_2]$ 来描述投影变换，也称为单应性变换。投影变换可以将一个投影平面上的三维齐次向量映射到另一个投影平面上。通过投影变换，可以描述无人机拍摄的图像对之间更剧烈的变换参数。它可以通过一个8维向量 $\theta_{Hom} = \begin{bmatrix} a_{11} & a_{12} & t_x \\ a_{21} & a_{22} & t_y \\ v_1 & v_2 & 1 \end{bmatrix}$ 参数化。对于图像 $I_a$ 和 $I_b$ ，点 $P_B=[X_B,Y_B]^T$ 根据以下公式映射到点 $P_A=[X_A,Y_A]^T$ ：

$\begin{bmatrix} x_A \\ y_A \\ 1 \end{bmatrix} = \begin{bmatrix} a_{11} & a_{12} & t_x \\ a_{21} & a_{22} & t_y \\ v_1 & v_2 & 1 \end{bmatrix} \begin{bmatrix} x_B \\ y_B \\ 1 \end{bmatrix}$

B. 数据集生成

我们使用 VTUAV [28]、DroneVehicle [26] 和 VEDAI [27] 数据集来生成无人机双模态对齐数据集。数据集生成流程如图3所示。为了合成最终数据集，我们利用多个数据集，这需要对每个数据集中的图像对进行预处理，以确保图像格式一致。随后，我们选择多种几何变换（如仿射变换和单应性变换），生成相应的变换参数，并最终利用这些参数生成最终的图像对。VTUAV [28] 是一个用于无人机的可见光-红外目标跟踪数据集，包含13种目标类型和15种不同场景。DroneVehicle [26] 是一个用于无人机的可见光-红外目标检测数据集，包含5种目标类型。VEDAI [27] 是一个用于评估航空图像中小型车辆检测的数据集，包含9种目标类型。上述三个数据集基本上涵盖了无人机应用中的常见场景，如城市区域、荒野、海洋和公园。VTUAV 是一个跟踪数据集，帧率为每秒30帧（FPS）；对于对齐任务来说，图像过于密集。因此，我们在训练集中每10帧取1帧，与标签保持一致，在测试集中每50帧取1帧。DroneVehicle 和 VEDAI 的图像数量保持不变。由于这三个数据集的图像尺寸不同，我们将图像统一调整为 480 × 480。值得注意的是，这里移除了 DroneVehicle 数据集的边界部分。生成的数据集如表I所示。根据仿射变换的原理，随机生成仿射变换参数，包括旋转参数 𝜃、缩放参数 $\lambda _x,\lambda _y$ 、剪切参数 𝜙、平移参数 $t _x,t _y$ 。基于无人机捕获图像的特点，为了更好地模拟无人机双模态图像配准的实际情况，我们限制了参数范围。我们选择了旋转角度 𝜃∼𝑈(−𝜋/12,𝜋/12)、剪切角度 𝜙∼𝑈(−𝜋/12,𝜋/12)、各向异性缩放因子 $\lambda _x=\lambda _y$ ∼𝑈(0.4,1.6)、平移 $t _x,t _y$ ∼𝑈(−0.15,0.15)。这些参数基于仿射变换的奇异值分解（SVD）定义，然后必须组合以获得公式（1）中描述的矩阵 [𝑎𝑖𝑗]：

$\begin{bmatrix} a_{11} & a_{12} \\ a_{21} & a_{22} \end{bmatrix} = R(\theta) R(-\phi) \text{diag}(\lambda_x, \lambda_y) R(\phi)$

在仿射变换的基础上，我们引入两个参数 𝑣1,𝑣2∼𝑈(−0.2,0.2)来描述无人机图像对之间的单应性变换。其余参数与仿射变换参数一致。对于无人机图像对，如果可见光-红外传感器的安装位置固定在同一旋转平台上，仿射变换可以建模双模态图像对之间的变换参数。如果传感器位于不同位置的旋转平台上，图像对之间会发生剧烈变化，因此需要使用单应性变换来建模图像对之间的变换参数。

C. 数据集评估指标

传统图像对齐任务可以使用图像差异作为评估指标[21]，例如均方误差（MSE）、峰值信噪比（PSNR）[33]、结构相似性（SSIM）[34]：

$MSE = \frac{1}{L^2} \sum_{i=1}^{L} \sum_{j=1}^{L} (Img1(i,j) - Img2(i,j))^2$ （均方误差）

$PSNR = 10 \lg \left( \frac{\text{max}^2}{MSE} \right)$ （峰值信噪比）

$SSIM(x, y) = [l(x, y)]^\alpha [c(x, y)]^\beta [s(x, y)]^\gamma$ （结构相似性）

其中 Img1 和Img2 表示图像对，Max_Value 是图像中的最大像素值，为255。这些指标通过评估变换后图像的像素值来计算。在双模态图像中，可见光和红外图像之间存在显著对比度差异，使得图像差异不足以衡量图像对齐质量。传统的图像评估指标，如SSIM和PSNR，不适合准确评估无人机双模态对齐。因此，我们使用网格误差作为主要评估方法。我们构建了一个网格 G，其 x 和 y 分布在−1 到 1 之间，网格点数为20×20。如果图像之间的变换参数已知，可以通过 G1=Warp(H)∗G 获得变换网格G1[公式(9)]，其中 H 表示变换参数。通过计算网络输出与真值之间的变换网格，可以得到两个不同的网格。网格中的400个点可以近似表示图像对的对齐差异。更直观地，我们使用均方根误差（RMSE）[35]、平均端点误差（AEE）[36]和正确关键点的平均概率（PCK）[37]来评估对齐质量。RMSE、AEE和PCK的公式如下：

$RMSE = \sqrt{\frac{1}{L^2} \sum_{i=1}^{L} \sum_{j=1}^{L} (G'_{ij} - G''_{ij})^2}$ （均方根误差）

$AEE = \frac{1}{L^2} \sum_{i=1}^{L} \sum_{j=1}^{L} |G'_{ij} - G''_{ij}|$ （平均端点误差）

$PCK_L = \frac{|\{P_{i,j} \in P, d(G'_{ij}, G''_{ij}) \leq L\}|}{L^2}$ （正确关键点概率）

其中G′ 是网络预测变换参数的网格，i 和 j 表示网格坐标。同样，Gij 表示真值网格。 L=20 是网格 x 和 y 轴上的点数。Pi,j 是网格上的点， L 是距离阈值，即对齐的像素误差（绝对误差）。与传统图像对齐指标（如MSE、PSNR和SSIM）相比，我们的评估标准涉及计算网格点之间的对齐误差。这种方法解决了双模态图像对齐任务中不同模态图像之间显著差异的挑战。此外，网格点对齐误差被用于优化我们的网络。实验结果证实了这种方法论的有效性。

4.2 解析

A. 图像几何变换

基本概念：
图像几何变换是图像对齐的核心，通过数学映射调整坐标位置，消除空间差异[32]。无人机双模态图像因传感器差异（例如可见光和红外相机的视角、分辨率、位置）存在尺度、平移、旋转等错位，需通过变换对齐。

变换类型：

1.仿射变换（Affine Transformation）：

自由度：6个参数（ $a_{11},a_{12},t_{x},a_{21},a_{22},t_{y}$ )。
功能：支持平移、旋转、非各向同性缩放（不同轴缩放比例不同）和剪切。
数学表示： $P_A = \begin{bmatrix} a_{11} & a_{12} \\ a_{21} & a_{22} \end{bmatrix} P_B + \begin{bmatrix} t_x \\ t_y \end{bmatrix}$ 其中，矩阵部分控制旋转和缩放， $t_{x}$ ， $t_{y}$ 表示平移。
适用场景：适用于平面内的线性变换，例如无人机视角变化不大的情况。

2.单应性变换（Homography Transformation）：

自由度：8个参数（ $a_{11},a_{12},t_{x},a_{21},a_{22},t_{y},v_{1},v_{2}$ )，归一化为9维矩阵。
功能：支持投影变换，能处理更复杂的视角变化（如透视畸变）。
数学表示： $\begin{bmatrix} x_A \\ y_A \\ 1 \end{bmatrix} = \begin{bmatrix} a_{11} & a_{12} & t_x \\ a_{21} & a_{22} & t_y \\ v_1 & v_2 & 1 \end{bmatrix} \begin{bmatrix} x_B \\ y_B \\ 1 \end{bmatrix}$ 使用齐次坐标（homogeneous coordinates）， $v_{1}$ ， $v_{2}$ 引入透视效应。
适用场景：适用于无人机俯视或倾斜视角下的图像对，变换更剧烈。

解读：

变换选择：仿射变换计算简单，适合初步对齐；单应性变换更灵活，能应对无人机复杂视角（如高空俯视到地面）。无人机双模态对齐可能需结合两者，先用仿射变换粗对齐，再用单应性变换精调。
参数化：变换参数可通过特征匹配（如SIFT）或深度学习预测获得。本文数据集可能用这些变换模拟错位，生成训练样本。
实际意义：几何变换不仅是数据集生成工具，也是对齐算法的目标输出（如预测变换矩阵）。
综合分析：
本文通过合成方法生成无人机双模态对齐数据集，利用几何变换模拟现实中的未对齐状态。仿射和单应性变换分别应对不同程度的错位，为后续算法设计（如端到端网络预测变换参数）奠定基础。数据集的合成需平衡真实性与多样性，确保覆盖无人机任务中的典型场景（如远近目标、视角变化）。

B. 数据集生成

数据集来源与预处理：

本文利用三个现有无人机相关数据集生成双模态对齐数据集：

VTUAV [28]：可见光-红外跟踪数据集，覆盖13种目标（如人、车）和15种场景（如城市、海洋），帧率30 FPS。图像密集，需抽样（训练集每10帧取1帧，测试集每50帧取1帧）以适配对齐任务。
DroneVehicle [26]：可见光-红外检测数据集，包含5种目标，场景多样，图像数量未调整。
VEDAI [27]：航空图像小车辆检测数据集，含9种目标，适用于无人机视角。

这些数据集覆盖城市、荒野等典型无人机场景，具有代表性。预处理包括：

统一尺寸：调整为 480 × 480，规范化输入。
边界移除：去除 DroneVehicle 的边缘部分，可能因边界噪声或无效区域影响对齐。
抽样：减少 VTUAV 的帧密度，降低冗余。

生成流程（图3）：

原始数据：从上述数据集提取可见光和红外图像对。
几何变换：施加仿射或单应性变换，模拟未对齐状态。
参数生成：随机生成变换参数，记录为真值。
合成图像对：根据参数生成错位图像对，形成数据集

仿射变换参数生成：

参数定义：
- 旋转 θ ：均匀分布 U(−π/12,π/12)（约 ±15°），模拟小角度旋转。
- 剪切 ϕ：U(−π/12,π/12)，引入轻微形变。
- 缩放 λx,λy： U(0.4,1.6)，支持非各向同性缩放。
- 平移 tx,ty：U(−0.15,0.15)，归一化范围，表示小范围移动。
矩阵分解： $\begin{bmatrix} a_{11} & a_{12} \\ a_{21} & a_{22} \end{bmatrix} = R(\theta) R(-\phi) \text{diag}(\lambda_x, \lambda_y) R(\phi)$ 其中：
$R(\theta) = \begin{bmatrix} \cos\theta & -\sin\theta \\ \sin\theta & \cos\theta \end{bmatrix}$ ：旋转矩阵
$R(\phi)$ ：剪切矩阵
diag(λx,λy)：缩放矩阵。
实现：通过奇异值分解（SVD）组合参数，生成变换矩阵。

参数范围设计考虑无人机传感器的小范围错位（如固定平台上的轻微抖动）。SVD分解将变换分解为旋转、缩放、剪切，便于控制和生成多样化样本。

变换选择的实际意义：

仿射变换：适合传感器固定、错位较小的场景，计算简单。
单应性变换：应对传感器位置变化大的情况，建模能力强。
数据集设计：通过两种变换生成多样化图像对，覆盖无人机任务的典型错位类型。

C 数据集评估指标

传统指标的局限性：

传统图像对齐任务常使用像素级差异指标：

1.均方误差

公式： $MSE = \frac{1}{L^2} \sum_{i=1}^{L} \sum_{j=1}^{L} (Img1(i,j) - Img2(i,j))^2$
意义：计算两图像像素值差的平方平均，衡量整体差异。

2.峰值信噪比

公式： $PSNR = 10 \lg \left( \frac{\text{max}^2}{MSE} \right)$
意义：基于MSE衡量图像质量，Max_Value=255 为8位图像最大值。

3.结构相似性

$SSIM(x, y) = [l(x, y)]^\alpha [c(x, y)]^\beta [s(x, y)]^\gamma$
意义：综合亮度（l）、对比度（c）、结构（s）相似性，参数 α,β,γ 调整权重。

这些指标适用于可见光图像，因其假设像素值分布相似。然而，双模态图像（可见光-红外）因物理特性差异（可见光富纹理，红外显轮廓）导致对比度迥异，直接比较像素值（如MSE）无法反映对齐质量。例如，红外图像可能整体偏暗，即使对齐良好，MSE仍可能很高。因此，传统指标不适合无人机双模态对齐。

网格误差方法：

本文提出基于网格的几何误差评估：

网格构建：
- 定义网格 G：20×20 个点，坐标范围[−1,1]，均匀分布。
- 变换网格：G1=Warp(H)∗G，H 为已知变换参数（如仿射或单应性矩阵）。
误差计算：
- 网络预测网格 G′ 和真值网格G′′ 的差异。
- 400个网格点近似表示对齐误差。

具体指标：

1.均方根误差

$RMSE = \sqrt{\frac{1}{L^2} \sum_{i=1}^{L} \sum_{j=1}^{L} (G'_{ij} - G''_{ij})^2}$
意义：衡量预测网格与真值网格的欧几里得距离平方平均，开方后单位与像素一致

2.平均端点误差：

$AEE = \frac{1}{L^2} \sum_{i=1}^{L} \sum_{j=1}^{L} |G'_{ij} - G''_{ij}|$
意义：计算绝对误差平均，反映平均偏差大小。

3.正确关键点概率

$PCK_L = \frac{|\{P_{i,j} \in P, d(G'_{ij}, G''_{ij}) \leq L\}|}{L^2}$
意义：统计预测点与真值点距离小于阈值 L 的比例， L 为像素误差阈值。

解读：

几何误差优势：网格方法直接评估变换参数的准确性，而非像素值差异，适用于模态间对比度无关的场景。400个点覆盖图像全局，足以表征对齐质量。
指标选择：
- RMSE强调总体误差分布，适合优化。
- AEE关注平均偏差，直观反映对齐精度。
- PCK以阈值衡量成功率，便于比较不同算法。
与传统对比：传统指标依赖像素一致性，双模态场景失效；网格误差聚焦空间对应，鲁棒性更强。
优化应用：网格误差可作为损失函数（如L2范数），直接指导网络训练变换参数。

实验验证：

实验结果表明，网格误差有效评估无人机双模态对齐，克服传统指标局限。

网格密度：20×20 可能不足以捕捉小目标细节，可测试更高密度。
阈值 L：需根据任务（如检测、跟踪）调整，确保实际意义。
可视化：结合网格可视化（如误差热图）增强直观性。

综合分析：

本文评估方法针对双模态特性设计，网格误差取代像素差异，适应无人机对齐需求。与前文数据集生成结合，变换参数真值支持网格计算，形成闭环研究体系。后续可扩展至动态场景或多模态融合评估。

五. 无人机双模态对齐网络

5.1翻译

对齐是图像对的操作，类似于孪生目标跟踪网络[38]。受孪生目标跟踪网络[39]的启发，我们提出了一个基于Transformer的可见光-红外双模态无人机对齐网络，如图4所示。网络结构主要分为特征提取网络、双模态聚合网络、特征融合网络和参数回归网络。以下将分别介绍每个网络。

A. 特征提取网络

为了确保比较的一致性，我们使用经典的ResNet-50[40]作为特征提取网络。ResNet-50在计算速度和性能之间提供了有效的平衡，能够无缝提取不同尺度的图像特征。此外，通过利用其归纳偏置，即使在数据有限的情况下，也能促进鲁棒的红外特征提取网络的开发。我们移除了原始ResNet网络的全连接层。为了利用多尺度特征，我们提取ResNet网络最后三层的输出特征，并使用三个卷积层将特征通道数调整为256。特征提取网络结构如图5所示。

我们分别获得了三种不同尺度的图像特征：60×60×256、30×30×256和15×15×256，对应的步幅分别为8、16和32。由于可见光和红外模态的特性不同，我们使用两个独立的ResNet-50网络分别从可见光和红外图像中提取特征。

B. 双模态聚合网络

由于可见光和红外的成像机制不同，ResNet网络提取的图像特征也有所不同。双模态图像对齐利用可见光和红外模态特征之间的相关关系，因此消除可见光和红外模态特征之间的差异至关重要。受异构特征聚合方法[5],[41]的启发，我们使用多个卷积层实现双模态聚合网络。双模态聚合网络如图6所示。

由于我们提取了多尺度图像特征，为了在对应尺度上进行双模态信息聚合，需要对每个尺度的可见光-红外双模态图像进行模态信息聚合。聚合过程可以表示为：

$F_C = Conv_C(Cat(Conv_{rgb}(F_{rgb}[i]), Conv_{ir}(F_{ir}[i])))$

其中 $F_{rgb}[i]$ 和 $F_{ir}[i]$ 分别表示第i 个尺度的可见光和红外图像特征。 $Conv_{ir}$ , $Conv_{rgb}$ , $Conv_{C}$ 分别表示三个不同的卷积，卷积核大小为3×3。 $Conv_{rgb}$ 和 $Conv_{ir}$ 分别提取可见光和红外模态的独特特征； $Conv_{C}$ 提取可见光和红外模态之间的共同特征。Cat(.) 表示在通道维度上的特征拼接：

$(F^s_{rgb}, F^s_{ir}) = Split(F_C)$

其中 Split(.) 表示在通道维度上分割特征：

$F^1_{rgb} = Sig(Conv_1(F^s_{rgb})) \quad F^2_{rgb} = Sig(Conv_2(F^s_{rgb}))$

$F^1_{ir} = Sig(Conv_1(F^s_{ir})) \quad F^2_{ir} = Sig(Conv_2(F^s_{ir}))$

其中 Sig(.) 表示Sigmoid激活函数，Conv1 和 Conv2 表示两个不同的卷积，卷积核大小为3×3。这里，可见光和红外特征共享两个卷积，以增强每个模态中的共同特征：

$F'_{rgb}[i] = F^1_{rgb} + (F^2_{rgb} \times Conv_{rgb}(F_{rgb}[i]))$

$F'_{ir}[i] = F^1_{ir} + (F^2_{ir} \times Conv_{ir}(F_{ir}[i]))$

最后，我们通过跳跃连接结合不同模态中的共同特征和独特特征。 $F'_{rgb}[i]$ 和 $F'_{ir}[i]$ 是聚合后第 i 个尺度的可见光和红外特征。

C. 特征融合网络

在双模态聚合网络之后，我们获得了双模态特征。双模态特征被输入到特征融合网络中，以建模特征的相关性，从而估计图像对之间的变换参数。由于我们使用了可见光-红外双模态图像的多尺度特征，特征拼接为

$batchsize \times (60 \times 60 + 30 \times 30 + 15 \times 15) \times 256 = batchsize \times 4725 \times 256$ ,这里，60、30和15分别表示特征图的大小。对于传统的Transformer网络，计算量很大，会减慢网络速度。受目标检测算法DeformerDETR[12]的启发，稀疏采样可以减少网络的冗余计算，大大提高网络的运行效率，并有效解决多尺度图像计算冗余的问题。此外，可变形注意力机制可以更好地捕捉目标的微小特征，有效提高特征关系建模能力。我们使用可变形注意力构建特征融合网络，网络如图7所示。

$O(N^2)$

编码器：

编码器是一个自注意力机制，用于突出提取的特征向量中的重要特征。实验结果表明，密集采样比稀疏采样更能表示图像中的重要特征信息。因此，我们使用原始Transformer作为编码器。此外，编码器对特征尺度不敏感，多尺度特征不会对网络造成显著计算负担。编码器由一系列Transformer块组成。每个块包含一个多头自注意力（MSA）模块和一个前馈网络（FFN）。在空间维度上拼接多尺度特征：

$F_{cat} = Cat(F'_{rgb}[0], F'_{rgb}[1], F'_{rgb}[2])$

对 $F_{cat}$ 进行自注意力：

$F_{MSA} = F_{cat} + MSA(LN(F_{cat}))$

$f_{rgb} = FFN(LN(F_{MSA})) + F_{MSA}$

这里， $F'_{rgb}[i]$ , i=0,1,2分别是双模态聚合网络的多尺度特征，MSA是多头自注意力模块，FFN是前馈网络。 $f_{rgb}$ 是通过自注意力的可见光特征，红外特征同理。

解码器：

这里，我们使用多尺度可变形注意力（MSDA）模块作为交叉注意力模块。通过使用MSDA，我们可以提高多尺度特征的高效计算，并有效提升对小目标特征的建模能力。解码器以查询向量和编码器增强的特征序列作为输入。解码器由一系列块组成。每个块包含一个MSA模块、一个MSDA模块和一个FFN。在MSDA模块中，查询可以关注特征上的所有位置，从而学习用于最终角点预测的鲁棒表示。对查询进行自注意力：

$f'_{Query} = F_{Query} + MSA(LN(F_{Query}))$

这里， $F_{Query}$ 表示大小为 $Num_{query} \times 256$ 的输入查询向量。 $f'_{Query}$ 是自注意力后的查询向量。创建参考点：

$R'_{point} = Sig(Linear(R_{point}))$

MSDA模块是一个稀疏采样过程，需要确定稀疏采样点的位置。参考点 $R'_{point}$ 表示x 和y 方向上的稀疏采样点，大小为 $Num_{query} \times 2$ 。 $Linear(.)$ 表示输入为256、输出为2的线性层， $R_{point}$ 是初始向量，大小为 $Num_{query} \times 256$ 。Sig(.) 表示Sigmoid激活函数，用于将偏移坐标向量映射到0到1之間。在解码器块中执行交叉注意力操作：

$f_{encoder} = Cat(f_{rgb}, f_{ir})$

$f_{MSDA} = f'_{Query} + MSDA(LN(f'_{Query}, R'_{point}, f_{encoder}))$

$f_{decoder} = FFN(LN(f_{MSDA})) + f_{MSDA}$

$f_{encoder}$ 是编码器输出的可见光-红外特征在通道维度上的拼接，大小为 $batchsize \times 9450 \times 256$ ，MSDA(.) 表示多尺度可变形注意力模块。 $f_{decoder}$ 表示解码器的输出向量，大小为 $batchsize \times Num_{query} \times 256$

角点回归：

解码器的输出是基于增强点的偏移向量，而我们需要的是查询的四个角点坐标。为了获得真实坐标点，还需要加上采样点的坐标。这个过程表示为：

$f_{output} = MLP(f_{decoder}) + Sig^{-1}(R'_{point})$

MLP(.) 表示一个简单的多层感知机网络，输入为256，输出为8。 $Sig^{-1}$ 表示反Sigmoid函数，可以恢复映射的坐标。 $f_{output}$ 是特征融合网络的输出，大小为 $batchsize \times Num_{query} \times 8$

参数回归网络和损失:

参数回归网络：我们从特征融合网络中获得了查询的四个角点坐标 $(x_1, x_2, x_3, x_4, y_1, y_2, y_3, y_4)$ 。参数回归网络直接使用这四个角点坐标来估计图像对之间的变换参数。为了计算仿射变换，我们使用三层线性层来确定仿射变换参数，直接获得六个参数。类似地，对于单应性变换，我们采用三层线性模型。需要强调的是，我们只需要八个参数，因为根据公式(3)，单应性矩阵的最后一个参数在归一化后变为1，无需估计。注意，线性层中不使用激活函数，因为最后的变换参数范围在-2到2之间。通过实验，我们发现查询数量会影响算法的对齐效果。一个解释是，查询在算法中学习特征对之间的相关性。查询数量代表可用于对齐的特征对数量。

损失：我们的网络输出双模态图像对的变换参数，需要与数据集中的真值进行比较以优化网络。我们使用两种损失函数来优化网络，即L1范数损失L1(.) 和网格损失 $L_{grid}(.)$ 。网格损失通过计算网格点上的平均平方误差来建模图像对的像素距离误差。网格损失定义如下：

$L_{grid} = \frac{1}{L \times L} \sum_{i=1}^{L} \sum_{j=1}^{L} \| G'_{ij} - G''_{ij} \|_2$

其中 $G'$ 是网络预测变换参数对网格 G 的变换结果， $G'_{ij}$ 表示网格上的网格点。类似地， $G''_{ij}$ 表示真值网格点。L = 20是网格 x 和 y 轴上的点数。网格点使用归一化坐标均匀分布在图像中，即 $x_i, y_i \in [-1, 1]$ 。对于我们的网络，我们使用L1范数损失 $L_1(.)$ 和网格损失 $L_{grid}(.)$ 的线性组合：

$L_{loss} = \lambda_G L_{grid} + \lambda_1 L_1$

其中 $\lambda_G = 2, \quad \lambda_1 = 5$ 是通过实验确定的超参数权重。

5.2解析

整体架构：
本文提出一个基于Transformer的无人机可见光-红外对齐网络，灵感来源于孪生网络（如Siamese跟踪[38],[39]），处理图像对以预测变换参数。网络分为四部分：特征提取、双模态聚合、特征融合和参数回归（图4）。这种端到端设计避免传统两阶段方法（特征提取+匹配）的低效，直接输出对齐参数。

A. 特征提取网络

选择ResNet-50：使用经典ResNet-50[40]，因其在性能和速度间平衡良好，适合多尺度特征提取。移除全连接层，保留卷积层输出。
多尺度特征：提取最后三层特征（步幅8、16、32），尺寸分别为 60×60×256、30×30×256 、15×15×256 ，通过3×3卷积统一通道数为256（图5）。
独立提取：因可见光和红外成像差异，使用两个独立ResNet-50分别处理，保留模态特性。

B. 双模态聚合网络

目标：消除可见光和红外特征差异，利用相关性对齐。
方法：受异构特征聚合[5],[41]启发，用卷积层聚合特征（图6）。

聚合网络通过卷积和跳跃连接平衡模态差异与互补性。共享卷积强化共性，独立卷积保留独特性，多尺度处理适应无人机目标变化。

C. 特征融合网络

目标：建模特征相关性，预测变换参数。
输入：多尺度特征拼接，尺寸 batchsize×4725×2564725 = 60×60 + 30×30 + 15×15）。
挑战：传统Transformer计算复杂度高（O(N^2) ），不适合实时性。
解决方案：采用DeformerDETR[12]的可变形注意力（MSDA），降低复杂度（图7）。

MSDA优化多尺度计算，适合无人机远近目标；编码器密集采样保留信息，解码器稀疏关注关键点，平衡精度与速度。

参数回归直接从角点映射变换，简化流程；网格损失聚焦几何精度，L1辅助优化，超参数平衡二者权重。