(NIPS 21) CoFiNet: Reliable Coarse-to-fine Correspondences for Robust Point Cloud Registration

原创

已于 2022-06-27 15:59:03 修改 · 1.2k 阅读

10 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #深度学习

于 2022-06-27 15:22:32 首次发布

在这里插入图片描述
CoFiNet[1]是去年挂在Arxiv上的文章，当时没有来得及仔细研究，时隔大半年，仔细研究一下这篇文章。

Contribution

提出一种不需要检测关键点的（detection-free）的coarse-to-fine点云配准框架；
提出一种加权方案（weighting scheme），在coarse scale下引导模型学习匹配经过下采样后的均匀分布的nodes，显著减小了后续进一步优化点对匹配关系的搜索空间；
提出一种可微（differentiable）的密度自适应匹配模块，采用最优传输理论（sinkhorn）优化point-level的点对匹配关系。

CoFiNet核心思路是基于corase-to-fine思想，这一匹配范式被广泛应用于2D图像匹配，其中有如LoFTR[2]等工作，均是采用一种先在coarse-level上得到粗略点对匹配结果，再在fine-level上进行点对匹配关系的进一步优化，模型最终输出经过优化后的匹配关系的思想。整体结构如下图：
在这里插入图片描述
左侧为模型整体pipeline，右侧为CPB与CRB模块的具体操作流程图。整个网络分成Coarse scale与Finer scale两个部分，整体遵循encoder-decoder的全卷积架构。接下来进行各个模块的详细介绍。

Method

Coarse-scale Matching

即图的上半部分，主要由encoder，attention及optimal transport三个部分组成：

Point Encoding

对于点云输入 ${P_X} \in {R^{n \times 3}},{P_Y} \in {R^{m \times 3}}$ ，采用KPConv[3]进行特征提取，这里的KPConv结构已经被众多点云配准网络使用，如D3Feat[4]，PREDATOR[5]，Lepard[6]，NgeNet[7]等等，这里不过多赘述。
经过encoder至bottleneck时，输出经过下采样后的点node ${P'_X} \in {R^{n' \times 3}},{P'_Y} \in {R^{m' \times 3}}$ 及其对应特征node feature ${F'_X} \in {R^{n' \times b}},{F'_Y} \in {R^{m' \times b}}$ （b=256），即如下过程：
$\begin{array}{l} {P_X} \to { {P'}_X},{ {F'}_X}\\ {P_Y} \to { {P'}_Y},{ {F'}_Y} \end{array}$

${P'_X},{P'_Y}$ 被称为node，为输入点云经过下采样后得到的处于coarse-level上的点，也可以称为superpoint。每个经过下采样得到的node表征了原输入点云一个小patch上的所有信息。

Attentional Feature Aggregation

对于得到的node ${P'_X},{P'_Y}$ 及其特征 ${F'_X},{F'_Y}$ ,进行self-，cross-，self-attention的特征聚合。目前在全卷积网络中，在bottleneck处进行attention操作已经是一个十分常见的操作，self-attention用于进一步扩大特征 ${F'_X},{F'_Y}$ 在自身点云 $X$ 与 $Y$ 中的感受野，cross-attention用于 ${F'_X},{F'_Y}$ 之间的信息交互。
$\begin{array}{l} { {F'}_X} \to { {\tilde F'}_X}\\ { {F'}_Y} \to { {\tilde F'}_Y} \end{array}$

最低0.47元/天解锁文章