一、引言
论文: OmniGlue: Generalizable Feature Matching with Foundation Model Guidance
作者: Google Research
代码: OmniGlue
注意: 该方法使用SuperPoint和DINOv2获取关键点、描述符、特征图,在学习该方法前建议掌握关键点检测方法SuperPoint和自监督学习方法DINO、iBOT。
特点: 使用冻结的SuperPoint和经DINOv2预训练的ViT-B/16获取关键点、描述符、特征图;以特征图为指导构建图像内、图像间的连接图;以连接图为依据进行mask并依次执行自注意力、交叉注意力来优化描述符;对优化后的描述符计算两两之间的相似度确认特征匹配。
二、框架
OmniGlue的整体流程包括如下四个部分:
2.1 提取关键点、描述符、特征图
该部分流程图如下:
可见,对于两张同物体不同视角的待匹配图片 I A I_A IA和 I B I_B IB,OmniGlue使用冻结的SuperPoint和经DINOv2预训练的ViT-B/16提取关键点、描述符、特征图。
SuperPoint被用来提取关键点和描述符,详情请参考我之前的博客SuperPoint。
关键点以归一化的坐标形式呈现,即 ( x , y ) (x,y) (x,y)。 待匹配的两张图片中所提取的关键点坐标集被分别定义为 A = { A 1 , A 2 , ⋯ , A N } \mathbf{A}=\{A_1,A_2,\cdots,A_N\} A={
A1,A2,⋯,AN}和 B = { B 1 , B 2 , ⋯ , B M } \mathbf{B}=\{B_1,B_2,\cdots,B_M\} B={
B1,B2,⋯,BM}, N N N和 M M M通常不等。归一化的关键点坐标经过位置编码形成坐标向量,再经过一个 MLP \text{MLP} MLP形成位置特征,定义为 p ∈ R C \mathbf{p}\in\mathbb{R}^C p∈RC。
描述符是从两张图片经SuperPoint得到的预测特征图中按照关键点坐标抽取出的特征。 可以直接定义为 d ∈ R C \mathbf{d}\in\mathbb{R}^C d∈R

最低0.47元/天 解锁文章
1747

被折叠的 条评论
为什么被折叠?



