一、引言
论文: SuperPoint: Self-Supervised Interest Point Detection and Description
作者: Magic Leap
代码: SuperPoint
特点: 提出Homographic Adaptation策略,提升模型从虚拟数据迁移到真实数据的表现;提出自监督训练的双分支网络框架,无需人工标记真实数据的关键点并能够同时实现关键点检测和描述符生成。
二、框架
SuperPoint的整体流程包括如下三个部分:
(a)使用有标签的虚拟三维物体数据集进行预训练,获取一个基础的关键点检测器。
(b)使用预训练好的关键点检测器对经过Homographic Adaptation中各种变换后的无标签的真实数据集进行关键点预测,然后整合所有预测得到一个关键点集合。
(c)使用整合出的关键点集合作为伪标签同时训练网络的关键点和描述符分支,获取一个可以同时预测关键点和描述符的模型。
2.1 关键点预训练
进行真实数据的关键点手工标注费时费力,作者先使用虚拟数据集进行预训练,该数据集是自己生成的、有关键点标签的,具有图形简单、数量多、关键点明确等特点。
预训练的关键点检测模型被称为MagicPoint,检测流程如下:
首先,该模型输入的是灰度图,所有输入的维度都要先从彩色的 M × N × 3 M\times N\times 3 M×N×3转为灰度的 M × N × 1 M\times N\times 1 M×N×1。
其次,是MagicPoint模型,其结构图如下:
其中,编码器部分主要包括卷积和最大池化操作,多次卷积使输出通道数从1变为128,三次最大池化使输出宽高变为输入宽高的 1 / 8 1/8 1/8(每次缩小 1 / 2 1/2 1/2)。因此,编码器的输出维度为 H c × W c × 128 H_c\times W_c\times 128 Hc×Wc×128( H c = H / 8 , W c = W / 8 H_c=H/8,W_c=W/8 Hc=H/8,Wc=W/8),此时该特征图上一个像素点又称一个cell。
特征图的宽高均缩小了8倍,但我们希望检测出的关键点坐标处于原图尺度上,所以作者通过两次卷积操作将特征图的通道数从128变为了65。65包括 8 × 8 8\times 8 8×

最低0.47元/天 解锁文章
14万+





