Unsupervised Learning of Shape and Pose with Differentiable Point Clouds && NIPS 2018 论文笔记

最新推荐文章于 2023-11-28 20:09:55 发布

原创

最新推荐文章于 2023-11-28 20:09:55 发布 · 807 阅读

3 ·

CC 4.0 BY-SA版权

本文介绍了一种无监督学习方法，通过最小化重投影误差，从未标记的图像中学习三维形状和相机姿态。该方法使用点云表示，避免了传统体素表示的局限性，提高了学习精度和效率。实验结果显示，该方法在形状和姿态预测上取得了良好的效果。

第一作者：Eldar Insafutdinov
研究机构：Max Planck Institute for Informatics, Intel Labs

总结

重投影误差：该方法不需要准确的地面真实相机姿势，因此可以应用于从真实数据中学习
使用了位姿估计器集合来解决位姿歧义问题

论文解决的问题

解决了从一组未标记类别的特定图像中学习精确的三维形状和相机姿态的问题。

论文训练了一个卷积网络，通过最小化重投影误差来预测单个图像的形状和姿态：给定一个物体的多个视图，预测的形状到预测相机姿态的投影应该与提供的视图相匹配。

选择点云表示相比于体素更加精确，允许计算效率高的处理，可以生成高质量的形状模型

论文克服了三个问题：

估计形状和姿势是一个鸡和蛋的问题：没有一个好的形状估计就不可能学习准确的姿势，反之亦然，准确的姿态估计是学习形状的必要条件。这个问题通过形状和姿势预测器的联合优化解决
位姿估计容易出现由模糊性引起的局部极小值：一个目标可能从两个角度看起来很相似，如果网络在所有情况下都收敛到只预测其中一个角度，那么它将无法学习预测另一个角度。这个问题会导致姿态估计中的严重误差。为了解决这个问题，作者训练了不同的姿态预测器集合并将其提炼为单个学生模型（student model）
在没有明确的3D监督的情况下学习点云信息。论文提出了一个可微投影算子，该算子在给定点集和相机姿态的情况下，生成一个二维投影（轮廓、彩色图像或深度图），作者将该算子称为“可微点云”

现有方法的不足 & 本文贡献

现有方法需要相机位姿的精确数据作为label，且预测形状由于基于voxel，其分辨率非常低。

本文提出了一种不需要标签数据、利用点云表示的方法来学习仅给出二维投影的三维物体的姿态和形状。

实验表明，点云在效率和准确性方面优于 voxel-based 的表示。

相比于使用真值训练的相机位姿估计网络，性能只有很小的下降。

论文方法介绍

直观上，模型要求对于同一对象的所有成对的视图，预测的点云的投影必须与提供的真值视图相匹配。

流程概述：

输入数据为同一个目标的多个单视图，包含K个目标的数据集:
$\cup _{i=1}^k\{ <X_j^i,p_j^i>\}_{j=1}^{m_i}\\X_j^i 为彩色图，p_j^i为同一视角下的某种投影（如轮廓或深度图等），m_i 为视角数目$
假定有两个输入X1,X2，分别使用它们来对形状（点云形式）和相机位姿进行预测：
$形状：P1^=FP(x1,θP)相机位姿：c2^=Fc(x2,θc)其中FP，Fc为共享大多数参数的卷积网络，通过固定长度的全连接层输出预测形状：\hat{P_1}=F_P(x_1, θ_P)\\相机位姿： \hat{c_2}=F_c (x_2, θ_c)\\其中F_P，F_c 为共享大多数参数的卷积网络，通过固定长度的全连接层输出预测$
得到两个预测后就可以投影出预测的视图：
$p^1,2=π(P1^,c2^)π表示可微投影算子，即可微点云 \hat p_{1,2}=\pi(\hat{P_1},\hat{c_2})\\\pi表示可微投影算子，即可微点云$
最后使用预测视图与真值之间的差别构造损失函数：
$L(θP,θc)=∑i=1N∑j1,j2=1mi∣∣p^j1,j2i−pj2i∣∣2 L(θ_P,θ_c) =\sum_{i=1}^N\sum^{m_i}_{j_1,j_2=1}||\hat p^i_{j_1,j_2}−p^i_{j_2}||^2$

最低0.47元/天解锁文章