文章链接:https://arxiv.org/pdf/2409.07452
Github 链接:https://github.com/yanghb22-fdu/Hi3D-Official
亮点直击
本文提出了高分辨率图像到3D模型(Hi3D),这是一种基于视频扩散的新范式,将单个图像重新定义为多视角图像,作为3D感知的序列图像生成(即轨道视频生成)。该方法深入探讨了视频扩散模型中潜在的时间一致性知识,这些知识在3D生成中能够很好地推广到多个视角之间的几何一致性。
提出了基于视频扩散模型的图像到3D生成方法,通过利用视频扩散模型的时间一致性来增强3D几何一致性。
提出了高分辨率图像到3D模型(Hi3D),在两阶段中生成高分辨率的3D网格和纹理:首先生成低分辨率轨道视频,然后通过3D感知精化器生成高分辨率视频。
在新视角合成和单视角重建任务中表现出色,实现了高质量的3D网格和纹理。
总结速览
解决的问题
Hi3D框架旨在解决从高分辨率图像生成3D模型时面临的挑战,特别是如何在多个视角之间保持几何一致性和高质量的纹理细节。传统方法往往在生成多视角图像时缺乏时间一致性,导致生成的3D内容在视觉上不连贯。
提出的方案
Hi3D提出了一种基于视频扩散的新范式,通过将单个图像重新定义为多视角图像,形成一个序列图像生成的过程(即轨道视频生成)。该方案利用3D感知先验(如相机姿态条件)来增强预训练的视频扩散模型,从而生成低分辨率的多视角图像。接着,使用学习到的3D感知视频到视频的细化器进一步提升这些图像的分辨率和细节。
应用的技术
视频扩散模型:用于生成多视角图像,特别关注时间一致性。 3D感知先验:通过相机姿态条件增强模型的生成能力。 3D高斯点云:用于进一步增强生成的多视角图像,以便进行高保真网格重建。
达到的效果
实验结果表明,Hi3D能够生成具有高度详细纹理的优越多视角一致图像。大量关于新视图合成和单视图重建的实验验证了该方法在生成高保真3D模型方面的有效性,显著提升了生成内容的几何一致性和视觉质量。
方法
本文设计了一种新的高分辨率图像到3D生成架构,称为Hi3D,创新性地将视频扩散模型整合到3D感知的360°序列图像生成中(即轨道视频生成)。 本文的出发点是利用视频扩散模型中固有的时间一致性知识,以增强3D生成中的视角一致性。首先在本节中详细阐述图像到3D生成的问题表述,再详细介绍Hi3D框架中两阶段视频扩散范式的细节。
第一阶段,本文重新构建了预训练的图像到视频扩散模型,增加了相机姿态的条件,然后在3D数据上进行微调,以实现轨道视频生成。在第二阶段,本文通过3D感知的视频到视频细化器进一步提升多视角图像的分辨率。最后,本文引入了一种新颖的3D重建 pipeline,从这些高分辨率的多视角图像中提取高质量的3D网格。Hi3D的整体架构如下图2所示。
问题表述
给定一张 RGB 图像 (源视图),目标是生成其对应的 3D 内容(即,纹理三角网格)。与之前的图像到 3D 生成方法类似,分解为两个步骤:
-
生成围绕物体 的多视角图像序列。
-
从这些生成的多视角图像重建 3D 内容。
在技术上,首先以两阶段的方式,从与输入条件图像 对应的 个不同摄像机姿态 合成物体的多视角图像序列 。在本工作中,生成 张高分辨率的多视角图像,分辨率为 。值得注意的是,之前的最先进