论文链接:论文地址
代码链接: 代码地址
摘要:是一种detect-free的匹配算法, 没有检测特征点,模型直接输出匹配对,利用cnn初步提取特征,再利用transformer的全局注意力加强特征,可以较好的对低纹理图片和相似区域进行匹配,个人感觉后面匹配那部分跟superglue很像。
方法:

1.使用resnet+FPN提取分辨率为 1/8的粗略特征图以及 1/2的精细特征图
2.Positional Encoding:
不同于DETR, 只在cnn的输出特征上进行一次位置编码,代码中使用的是sin/cos函数进行编码,然后将编码与特征图相加,用于后续输入至transformer
3. 将粗略特征图输入至粗特征提取的transformer提取匹配特征:该transformer由多个交替的自注意力和交叉注意力层构成,自注意力层使得每个点关注其周围所有点的关联,交叉注意力层使得点关注与另一幅图上的所有点的关联
4. 粗级别的匹配,使用乘积的方式先计算所有位置的匹配得分矩阵 S,然后计算最优匹配,可以通过最优传输OT算法或者dual-softmax方法,文中使用的是dual-softmax, 然后再通过互近邻MNN算法过滤掉一些离群匹配对
5. 精细匹配,通过粗匹配得到粗粒度的匹配结果,例如匹配点对(i1,j1),(i2,j2), 将其映射到对应的精细特征图,并且将其(w,w)领域裁剪出来(相当于裁剪出来了w*w个位置的特征),输入至精细特征提取的transformer2提取匹配特征,得到FA和FB,然后计算FA中心特征与FB中所有特征的匹配概率(即相似度),再计算该概率分布即可计算出FB中的亚像素精度

本文介绍了一种detect-free的匹配算法LoFTR,它利用CNN提取特征并结合Transformer的全局注意力,尤其在低纹理和相似区域表现出色。算法分为粗略特征提取和精细匹配两个阶段,粗级别通过自注意力和交叉注意力提高特征区分度,细级别则实现亚像素级精度。LoFTR在Homography estimation、Relative Pose Estimation和Visual Localization任务中达到state-of-the-art表现,优于Superpoint+Superglue在某些场景。
最低0.47元/天 解锁文章
5748

被折叠的 条评论
为什么被折叠?



