【论文笔记】基于无监督学习的2D目标三维点云重建 From Image Collections to Point Clouds && 2020

最新推荐文章于 2023-06-24 17:58:18 发布

原创

最新推荐文章于 2023-06-24 17:58:18 发布 · 1.3k 阅读

4 ·

CC 4.0 BY-SA版权

本文提出一种自监督方法，仅需单视角图像即可实现3D形状和相机位姿的恢复，通过循环一致性损失及多种约束提高重建精度和位姿准确性，避免了对多视角图像和真值位姿的依赖。

From Image Collections to Point Clouds with Self-supervised Shape and Pose Networks

通讯作者：R. Venkatesh Babu

第一作者：K L Navaneet

研究机构：Indian Institute of Science，加利福尼亚大学，Google Research

代码：代码链接

自己的想法：

将一个从2D图像生成的点云模型从不同视角进行观察，各个视角的观察都应该符合该模型在对应视角下的投影，这就是循环一致性损失函数的核心思想

不需要真值进行监督的代价就是需要复杂的损失函数补充这种监督信息，而且训练过程更加复杂。当然这也更加接近人脑在学习时候的情景。

论文解决的问题

与论文《Unsupervised Learning of Shape and Pose with Differentiable Point Clouds》解决的问题类似（该论文所提模型ULSP被用于baseline），在相机位姿未知的前提下通过2D的单视角图像监督恢复3D形状和位姿。

与有位姿监督和多视点监督的方法相比，模型仍然可以获得竞争性能。

现有方法的不足 & 本文贡献

ULSP模型：是一种基于多视图一致性的点云重建无监督方法，不需要相机位姿的真值，但是需要两张或以上的不用视角的图像以及对应的每个3D对象实例来自不同视点的相应前景mask。ULSP 论文笔记。
ULSP_Sup: ULSP的变种，为了与本文模型作对比作者训练的baseline，使用相机位姿真值进行监督，但是只是用单视角图像。
DIFFER模型：《DIFFER: Moving beyond 3d reconstruction with differentiable feature rendering》,

提出了一个可微分模块，以将点云特征投影到2D平面上，从而使其能够利用输入图像进行训练。DIFFEr使用了相机位姿的真值，因此本文方法相比具有更高的监督度。

本文贡献：

提出的模型只需要单视角图像，不需要相机位姿真值，更加接近实际情况。
在3D重建和相机位姿估计时引入了循环一致性损失

论文方法介绍

在这里插入图片描述

输入图像为I，重建后的点云数据为 $\hat{P}$ ，然后使用DIFFER模型中提出的可微投影模块将点云根据给定的视角V投影到2D平面，得到重投影的图像和前景mask $\quad \hat{I}\quad,\hat{M}$

损失函数：
$L_I=\frac{1}{hw}\sum_{i,j}||I_{i,j}−\hat{I}_{i,j}||_2^2 \quad 该损失函数用于监督重投影后的图像与原始输入之间的差别\\ L_M=L_{bce}+L_{aff} \quad 该损失函数用于监督前景点mask的生成质量。其中\\ \quad\quad L_{bce} =\frac{1}{hw}\sum_{i,j}−M_{i,j}log\hat{M}_{i,j}−(1−M_{i,j})log(1−\hat{M}_{i,j}) \\ \quad\quad L_{aff}=\sum_{i,j}min_{(k,l)\in M_+}((i−k)^2+ (j−l)^2)\hat{M}_{i,j}M_{k,l} +\sum_{i,j}min_{(k,l)∈\hat{M}_+}((i−k)^2+ (j−l)^2)M_{i,j}\hat{M}_{k,l}\\ 可以看出，L_{bce}的作用是监督被预测错的前景点，\\ L_{aff}用于监督实际前景点与预测的前景点之间的坐标偏差$

最低0.47元/天解锁文章