【论文阅读】A Point Set Generation Network for 3D Object Reconstruction from a Single Image

原创

已于 2022-01-21 13:17:34 修改 · 6.6k 阅读

31 ·

CC 4.0 BY-SA版权

文章标签：

#3d #深度学习 #计算机视觉

于 2022-01-20 23:14:04 首次发布

论文题目: A Point Set Generation Network for 3D Object Reconstruction from a Single Image (由单张图像进行三维物体重建的点集生成网络, 下文简称PSGN)

论文作者: Haoqiang Fan (清华大学交叉信息研究院); Hao Su, Leonidas Guibas (斯坦福大学计算机科学系)

论文出处: CVPR 2017 (oral)

论文摘要: 解决了由单张图像进行三维重建的问题, 生成了一种直接的输出形式——点云坐标; 设计了新型有效的架构、损失函数和学习范式; 考虑到输入图像的形状真值可能是不确定的, 采用了一个条件形状采样器, 能由一张输入图像预测出多个合理的三维点云. 本文方法不仅能超过目前基于单张图像三维重建的最优方法, 还能做出多种合理预测.

介绍

目前面临的表示的问题: 目前信号领域用于判别、生成学习的现有深度网络结构适合如图像、音频、视频这样规律的采样数据, 而常见的如二维网格、点云这样的三维几何表示并不是规则的结构, 所以大多数现有工作所采用的如体积网格、几何体的二维视图集合这样的常规表示会导致采样分辨率和效率之间难以权衡, 包含了量化伪影, 掩盖三维形状在几何变换下的自然不变性.

点云表示的特点: 和使用几何基元的CAD模型/简单网格相比, 点云虽然在表示基础连续三维几何体时没那么有效, 但点云是一种简单、统一的结构, 其优势在于: ①更易于学习(无需编码多个基元/组合连接模式); ②当几何变换变形时点云能简单调整(连接性无需更新)

通过推断由输入图像和由此推断出的视点位置所确定的三维点的位置, 由单张图像能够重建出整个物体的三维点云, 每个点被可视化为一个小球, 沿方位角0°和90°两个视点的重建结果

非传统的网络输出的挑战: 由于相同的几何形状在相同的近似程度下可能接受不同的点云表示, 因此需要考虑如何在训练时度量损失. 本文使用基于EMD的解决方案. 为了解决从单张图像恢复出三维结构的不良问题, 网络需要去估计图像中几何体可见部分的深度, 对几何体的不可见部分进行假定, 并评估不同假定的可信度. 由于某些视角中固有的物体不确定性, 一张二维图像会产生多个同样好的三维重建, 因此不同于真值唯一的经典回归/分类问题, 损失的定义尤为重要.

本文贡献: 本文最终采用一个条件采样器, 从给定的一张输入图像的真值空间中选择可信点云. ①用深度学习技术解决点集生成问题; ②在单张图像三维重建任务上达到最优; ③系统地探讨网络的架构、损失函数设计问题; ④讨论解决单张图像三维重建中真值不确定的问题

相关工作

由单张图像进行三维重建

现存问题: 不能稳健地由单张图像重建出完整的高质量形状, 必须引入先验

对形状/环境照明条件作假设——

①B. K. Horn. Obtaining shape from shading information. In Shape from shading, pages 123–171. MIT press, 1989.

②J. Aloimonos. Shape from texture. Biological cybernetics, 58(5):345–360, 1988.

开创了将基于学习的方法用于简单几何结构——

①D. Hoiem, A. A. Efros, and M. Hebert. Automatic photo pop-up. ACM transactions on graphics (TOG), 24(3):577–584, 2005.

②A. Saxena, M. Sun, and A. Y. Ng. Make3d: Learning 3d scene structure from a single still image. IEEE transactions on pattern analysis and machine intelligence, 31(5):824– 840, 2009.

图像集合当中的粗略对应关系也可以用于三维形状估计——

①A. Kar, S. Tulsiani, J. Carreira, and J. Malik. Category-specific object reconstruction from a single image. In CVPR, 2015.

②J. Carreira, S. Vicente, L. Agapito, and J. Batista. Lifting object detection datasets into 3d. IEEE Transactions on Pattern Analysis and Machine Intelligence, 38(7):1342– 1355, 2016.

建立RGBD数据集用于训练基于学习的系统——

①D. Eigen, C. Puhrsch, and R. Fergus. Depth map prediction from a single image using a multi-scale deep network. In Advances in neural information processing systems, pages 2366–2374, 2014.

②D. F. Fouhey, A. Gupta, and M. Hebert. Data-driven 3D primitives for single image understanding. In ICCV, 2013.

提出将已有的形状变形重组成新模型来适应观察到的图像, 但这依赖于高质量的图像-形状对应——

①H. Su, Q. Huang, N. J. Mitra, Y. Li, and L. Guibas. Estimating image depth using shape collections. ACM Transactions on Graphics (TOG), 33(4):37, 2014.

②Q. Huang, H. Wang, and V. Koltun. Single-view reconstruction via joint analysis of image and shape collections. ACM Transactions on Graphics (TOG), 34(4):87, 2015.

与本文最相关的工作C. B. Choy, D. Xu, J. Gwak, K. Chen, and S. Savarese. 3d-r2n2: A unified approach for single and multi-view 3d object reconstruction. (后文简称3D-R2N2)给定单张图像利用神经网络预测基本三维物体为三维体素, 不同点在于①3D-R2N2是体素表示, 而本文是点云: 点集为神经网络形成更好的形状空间, 预测出的形状更加完整自然; ②由于单张图像并不能完全确定三维形状的重建, 本文允许单个输入图像有多个重建候选