- DITTO-NeRF:一种从文本提示或单个图像生成高质量3D NeRF模型的新管道。
- 正面视图的给定 或者 文本
- 构建有限边界(IB)角度的高质量部分3D对象,然后使用隐扩散模型迭代重建剩余的3D NeRF。
- 一种渐进式3D重建方案。
- 引言:
- 简化输入源
- 单个图像 - > 3D:预训练CLIP
- 文本 - > 3D
- 过去的算法存在的问题:对应度低、3D输出不理想、生成的3D对象多样性低、计算复杂度高。
- 解决:基于扩散的迭代文本到全向3D模型DITTO-NeRF。
- 该模型利用潜在扩散模型响应给文本提示生成的高多样性和高保真图像。
- 解决:基于扩散的迭代文本到全向3D模型DITTO-NeRF。
- DITTO-NeRF 结合了一个单目深度估计模型来预测图像对应的深度,并随后在有限角度下构建高质量的局部3D物体。然后使用扩散模型的 inpainting-SDS(Score Distillation Sampling)损失来训练NeRF,以创建与文本提示相对应的图像,以填充3D表示的其余部分。为了在训练早期阶段更好地重建三维物体,提出了渐进式全局视图采样。最后,在细化阶段,可以最小化生成部件之间的差异。(这样,可以从文本生成的图像或给定的图像中构建3D对象)
- 无论是从图像到3D,还是从文本到3D,论文宣称DITTO-NeRF都优于当前最先进的SOTA基线。(论文又补充到:这些改进是需要在合理的训练时间和计算资源下实现)
- 贡献总结:
- 该管道迭代地将边界内(IB)角度的高质量部分3D模型传播到边界外(OB)角度的剩余3D模型;
- 提出从IB到OB的渐进式全局视图采样(PGVS),IB的可靠性制导掩蔽,以及所有IB和OB的多尺度一致性改进;
- 在文本/图像到3D方面优于现有技术,分别在多样性/质量和速度/保真度方面取得了显著的成果。
- 相关工作:
- SOTA模型:基于去噪扩散概率模型。
- 扩散模型:前向扩散步骤 + 反向生成步骤
- 前向扩散:根据时间步长添加预定义的噪声
- 反向生成:对噪声图像进行去噪
- 缺点:高计算资源
- 扩散模型:前向扩散步骤 + 反向生成步骤
- 潜在扩散模型(LDM,latent diffusion model):
- SOTA模型:基于去噪扩散概率模型。