MatchFormer: Interleaving Attention in Transformers for Feature Matching
MatchFormer是在LoFTR基础上进行改进
链接:MatchFormer: Interleaving Attention in Transformers for Feature Matching | SpringerLink
代码:jamycheung/MatchFormer: Repository of MatchFormer (github.com)
Abstract
Local feature matching is a computationally intensive task at the subpixel level. While detector-based methods coupled with feature descriptors struggle in low-texture scenes, CNN-based methods with a sequential extract-to-match pipeline, fail to make use of the matching capacity of the encoder and tend to overburden the decoder for matching. In contrast, we propose a novel hierarchical extract-and-match transformer, termed as MatchFormer. Inside each stage of the hierarchical encoder, we interleave self-attention for feature extraction and cross-attention for feature matching, yielding a human-intuitive extract-and-match scheme. Such a match-aware encoder releases the overloaded decoder and makes the model highly efficient. Further, combining self- and cross-attention on multi-scale features in a hierarchical architecture improves matching robustness, particularly in low-texture indoor scenes or with less outdoor training data. Thanks to such a strategy, MatchFormer is a multi-win solution in efficiency, robustness, and precision. Compared to the previous best method in indoor pose estimation, our lite MatchFormer has only 45% GFLOPs, yet achieves a +1.3% precision gain and a 41% running speed boost. The large MatchFormer reaches state-of-the-art on four different benchmarks, including indoor pose estimation (ScanNet), outdoor pose estimation (MegaDepth), homography estimation and image matching (HPatch), and visual localization (InLoc)
主要工作:本文的主要工作是提出了一种新的层级提取和匹配变换器,称为MatchFormer,用于局部特征匹配任务。
背景:局部特征匹配是一个在亚像素级别上计算密集的任务。传统的基于检测器和特征描述符的方法在低纹理场景中表现不佳,而基于CNN的方法虽然具有序列化的提取-匹配流程,但未能充分利用编码器的匹配能力,同时容易过度负担解码器进行匹配。
研究方法:提出了一种新的层级提取和匹配变换器,MatchFormer。在层级编码器的每个阶段内,我们交错使用自注意力进行特征提取和交叉注意力进行特征匹配,形成了一种直观的提取和匹配方案。
创新点:文章的创新点在于提出了一种匹配感知的编码器,以释放过载的解码器,并提高模型的效率和匹配性能。此外,将自注意力和交叉注意力结合到层级架构的多尺度特征上,可以提高匹配的鲁棒性,特别是在低纹理室内场景或缺乏室外训练数据的情况下。
成果:MatchFormer在室内姿态估计、室外姿态估计、单应性估计和图像匹配、以及视觉定位等四个不同基准测试中均取得了最佳的成果,具有高效、鲁棒和精确的特点。其中,与室内姿态估计中的先前最佳方法相比,我们的精简版MatchFormer仅有45%的GFLOPs,但实现了+1.3%的精确度提升和41%的运行速度提升。而大规模MatchFormer则在四个不同基准测试中达到了最佳水平。
1.Introduction
背景:本文基于计算机视觉中的局部特征匹配任务展开研究,这是很多基本计算机视觉任务(如SfM、SLAM、相对姿态估计和视觉定位等)的核心。传统的局部特征匹配方法基于手工设计的局部特征描述符,而近年来基于深度学习的方法主要集中在使用卷积神经网络(CNN)学习检测器和局部描述符。
现有方法存在的问题:
1.detector-based方法与手工制作的局部特征相结合 ,由于局部特征的高维性,计算量很大;
2.extract-to-match方法未能充分利用编码器的matching能力,是decoder负担过中国,增加计算量。
研究方法:
1.提出extract-and-match方法,用transformer架构同时实现特征提取和匹配;
2.交错使用self-attention和cross-attention模块,同时学习图片特征和寻找图片对之间的相似性;
3.引入了一种简单有效的位置补丁嵌入方法,即PosPE,它可以提取连续的补丁信息并嵌入位置信息,并增强低级特征的检测。
本文提出了一种新的提取和匹配流程,使特征提取和匹配能够同步进行。在层级结构的每个阶段内交错使用自注意力和交叉注意力模块,以增强多尺度特征。在此基础上,提出了一种新的视觉变换器MatchFormer,配备了强大的层级变换器编码器和轻量级解码器。同时,本文还引入了一种简单有效的位置块嵌入方法,即PosPE,以提升对低级特征的检测。最终,MatchFormer在多个基准测试上取得了最新的成果。

2.Related Work
这篇文章的相关工作主要介绍了局部特征匹配和视觉变换器两个方面的前沿工作。
1. 局部特征匹配方面:
文章介绍了基于检测器的方法和提取匹配方法。基于检测器的方法通常包括兴趣点检测、视觉描述子计算、最近邻匹配搜索、错误匹配拒绝和几何变换估计等步骤。提取匹配方法中,CNN通常用于学习密集和具有区分性的特征。此外,还介绍了一系列最新的工作,如CAPS、DSM、DRC-Net、D2Net、R2D2、COTR、LoFTR和QuadTree等,这些方法采用了CNN提取特征,并通过不同的方式进行匹配处理。
2. 视觉变换器方面:
文章指出了Transformer模型在捕捉长距离依赖方面的优势,并介绍了其在图像分类、目标检测、语义分割、图像增强和图像合成等任务中的应用。此外,最近的工作中也使用了Transformer的注意力模块处理局部特征匹配,如SuperGlue和LoFTR,但这种应用方式并未完全明确。文章提出了一种全新的完全基于Transformer的图像匹配框架,设计了位置补丁嵌入来增强特征提取,引入交错注意力机制以实现高效和鲁棒的特征匹配。
基于前人的工作和存在的问题,该研究提出了一种新的层级提取和匹配方法,MatchFormer。通过在层级编码器的每个阶段内交错使用自注意力进行特征提取和交叉注意力进行特征匹配,提出了更为高效、鲁棒和精确的特征匹配方法。这一方法解决了传统方法在处理低纹理场景下的效果不佳以及基于CNN的方法对解码器匹配能力的过度依赖问题。
3.Methodology
3.1MatchFormer
在四个阶段中,自注意力和交叉注意力采用交错策略进行安排。每个阶段包括两个组成部分:一个位置补丁嵌入(PosPE)模块和一组高效的注意力模块。然后,多尺度特征通过类似FPN的解码器进行融合。最后,粗细特征被传递用于执行LoFTR [36]中介绍的从粗到细的匹配。

Extract-and-match pipeline
不同于LoFTR中仅仅在特征提取后使用attetion提取单尺度特征图,本文结合self和cross attention提取多尺度特征。
attention模块作用:
1.浅层使特征偏重纹理信息,用self-attention模块提取图片本身的局部和全局特征。
2.深层特征偏重语义信息,使用cross-attention模块探索图片对特征的相似性。
Interleaving self/cross-Attention
交错使用self和cross-attention。单个attention原理如下:

Positional Patch Embedding(PosPE)

典型transformer会将图片分成一个一个patches,导致很难获得patches周围的位置信息。标准的Patch Embedding忽略了patch周围的信息,在最终还需要一个额外的position encoding。
于是本文设计了PosPE来提取低级特征信息,使用深度卷积神经网络的padding操作来编码位置信息。PosPE 可增强patch的位置信息并提取更密集的特征,从而有助于准确的特征匹配。
Preliminaries on Efficient-Attention
采用高效attention模型,例如spatial effective attention(SEA)和linear attention(LA)来降低计算复杂度。
Multi-scale Feature Fusion
MatchFormer融合多尺度特征,生成密集的、具有匹配感知性的特征,用于特征匹配。
使用类FPN解码器生成更稳健的特征并且降低计算复杂度。
5.结论
在结论部分,论文总结了其提出的MatchFormer框架的主要特点和实验结果:
1. 提出了MatchFormer框架,该框架采用了全新的提取-匹配思路,配备了一个具有匹配感知的编码器,通过交错应用自注意力和交叉注意力来同时进行特征提取和特征相似性学习。
2. MatchFormer避免了使用在提取-匹配方法中常见的复杂解码器,而是采用了轻量级的类似FPN的解码器来融合多尺度特征。
3. 实验表明,MatchFormer 在 ScanNet 和 MegaDepth 基准上的室内和室外姿态估计、HPatches 基准上的单应估计和图像匹配以及 InLoc 基准上的视觉定位方面实现了最先进的性能。

1260

被折叠的 条评论
为什么被折叠?



