
CoFiNet[1]是去年挂在Arxiv上的文章,当时没有来得及仔细研究,时隔大半年,仔细研究一下这篇文章。
Contribution
- 提出一种不需要检测关键点的(detection-free)的coarse-to-fine点云配准框架;
- 提出一种加权方案(weighting scheme),在coarse scale下引导模型学习匹配经过下采样后的均匀分布的nodes,显著减小了后续进一步优化点对匹配关系的搜索空间;
- 提出一种可微(differentiable)的密度自适应匹配模块,采用最优传输理论(sinkhorn)优化point-level的点对匹配关系。
CoFiNet核心思路是基于corase-to-fine思想,这一匹配范式被广泛应用于2D图像匹配,其中有如LoFTR[2]等工作,均是采用一种先在coarse-level上得到粗略点对匹配结果,再在fine-level上进行点对匹配关系的进一步优化,模型最终输出经过优化后的匹配关系的思想。整体结构如下图:

左侧为模型整体pipeline,右侧为CPB与CRB模块的具体操作流程图。整个网络分成Coarse scale与Finer scale两个部分,整体遵循encoder-decoder的全卷积架构。接下来进行各个模块的详细介绍。
Method
Coarse-scale Matching
即图的上半部分,主要由encoder,attention及optimal transport三个部分组成:
Point Encoding
对于点云输入 P X ∈ R n × 3 , P Y ∈ R m × 3 {P_X} \in {R^{n \times 3}},{P_Y} \in {R^{m \times 3}} PX∈Rn×3,PY∈Rm×3,采用KPConv[3]进行特征提取,这里的KPConv结构已经被众多点云配准网络使用,如D3Feat[4],PREDATOR[5],Lepard[6],NgeNet[7]等等,这里不过多赘述。
经过encoder至bottleneck时,输出经过下采样后的点node P X ′ ∈ R n ′ × 3 , P Y ′ ∈ R m ′ × 3 {P'_X} \in {R^{n' \times 3}},{P'_Y} \in {R^{m' \times 3}} PX′∈Rn′×3,PY′∈Rm′×3及其对应特征node feature F X ′ ∈ R n ′ × b , F Y ′ ∈ R m ′ × b {F'_X} \in {R^{n' \times b}},{F'_Y} \in {R^{m' \times b}} FX′∈Rn′×b,FY′∈Rm′×b(b=256),即如下过程:
P X → P ′ X , F ′ X P Y → P ′ Y , F ′ Y \begin{array}{l} {P_X} \to {
{P'}_X},{
{F'}_X}\\ {P_Y} \to {
{P'}_Y},{
{F'}_Y} \end{array} PX→P′X,F′XPY→P′Y,F′Y
P X ′ , P Y ′ {P'_X},{P'_Y} PX′,PY′被称为node,为输入点云经过下采样后得到的处于coarse-level上的点,也可以称为superpoint。每个经过下采样得到的node表征了原输入点云一个小patch上的所有信息。
Attentional Feature Aggregation
对于得到的node P X ′ , P Y ′ {P'_X},{P'_Y} PX′,PY′及其特征 F X ′ , F Y ′ {F'_X},{F'_Y} FX′,FY′,进行self-,cross-,self-attention的特征聚合。目前在全卷积网络中,在bottleneck处进行attention操作已经是一个十分常见的操作,self-attention用于进一步扩大特征 F X ′ , F Y ′ {F'_X},{F'_Y} FX′,FY′在自身点云 X X X与 Y Y Y中的感受野,cross-attention用于 F X ′ , F Y ′ {F'_X},{F'_Y} FX′,FY′之间的信息交互。
F ′ X → F ~ ′ X F ′ Y → F ~ ′ Y \begin{array}{l} {
{F'}_X} \to {
{\tilde F'}_X}\\ {
{F'}_Y} \to {
{\tilde F'}_Y} \end{array} F′X

最低0.47元/天 解锁文章
1920

被折叠的 条评论
为什么被折叠?



