Adobe又一力作：无位姿稀疏视图即可重建3D大模型？_pf-lrm: pose-free large reconstruction model for j-优快云博客

本文链接：https://blog.youkuaiyun.com/soaring_casia/article/details/135946795

研究人员提出PF-LRM，结合Transformer和三平面体NeRF，实现在稀疏视角下准确的姿态估计和逼真3D物体重建，无需额外3D监督，具有良好的泛化能力和鲁棒性。模型在多个基准上超越现有方法，展示了在处理无姿态图像的强大性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

论文标题：

PF-LRM: POSE-FREE LARGE RECONSTRUCTION MODEL FOR JOINT POSE AND SHAPE PREDICTION

论文作者：

Peng Wang, Hao Tan, Sai Bi, Yinghao Xu, Fujun Luan, Kalyan Sunkavalli, Wenping Wang, Zexiang Xu, Kai Zhang

导读：研究人员提出了PF-LRM，该方法使用了三平面体NeRF进行表示，并采用了可扩展单流Transformer模型，在2D和3D的token之间进行信息交换。通过在大规模数据集上训练，PF-LRM在输入稀疏视角情况下也能够稳健地准确的姿态并重建出逼真的3D物体，超越了以往的baseline工作。该模型在不需要添加额外的3D监督的情况下进行训练，并且能够推广到未训练过的数据集、处理2-4个输入的无姿态图像。©️【深蓝AI】编译

1. 工作概述

研究人员提出了一种可以处理无姿态图像三维重建大型重建模型方案（PF-LRM），用于在无姿态并且有很少视觉重叠图像的情况下重建3D物体，同时该方法可以在单个A100 GPU上以极短的时间来估计对应的摄像机姿态。PF-LRM是一种高度可伸缩的方法，它可以利用自注意力模块在3D对象标记和2D图像标记之间交换信息；为每个视图预测一个粗略的点云，且使用可微透视点（PnP）求解器来获得相机姿态。在大约100万个建模物体的大量多视图姿态数据上进行训练时，PF-LRM显示出较强的跨数据集泛化能力。在各种此前未见过的评估数据集上，在姿态预测精度和三维重建质量方面大大优于目前baseline方法。

如下图所示可以很精确地预估图片位姿，并