高分辨率3D人生成超简单!Pippo:Meta最新工作首次完成1K分辨率一致多视角人物图像生成

AI生成未来

已于 2025-02-17 22:38:36 修改

阅读量982

点赞数 25

分类专栏： 3d生成图像生成文章标签： 3D生成人物图像生成

于 2025-02-17 22:37:01 首次发布

本文链接：https://blog.youkuaiyun.com/AIGCer/article/details/145692929

版权

论文链接：https://arxiv.org/pdf/2502.07785
项目链接：https://yashkant.github.io/pippo/

亮点直击

一种生成模型：能够从单张图像生成高分辨率和多视角一致的人体，并提出了有效的训练策略。

一种扩散Transformer架构：专为增强多视角生成和视角控制而设计。

一种注意力偏置技术：能够在推理时生成比训练时多5倍以上的视角。

一种新颖的3D一致性指标：用于准确衡量生成任务中的3D一致性水平。

总结速览

解决的问题

高质量多视角数据获取成本高：传统方法需要高质量的多视角工作室数据来创建逼真的人体表示，但这些数据获取成本高，限制了可扩展性。
野外数据缺乏3D或多视角表示：大规模、非结构化的野外人体图像和视频虽然丰富，但缺乏真实的3D或多视角表示。
多视角生成模型的3D一致性问题：现有方法在生成多视角图像时，难以保证3D一致性，且现有评估指标无法准确衡量3D一致性。

提出的方案

Pippo模型：提出了一种基于Diffusion Transformer的生成模型Pippo，能够从单张随意拍摄的照片生成1K分辨率的多视角一致图像。
多阶段训练策略：
- 预训练：在大规模野外人体图像数据集上进行预训练。
- 中期训练：在高质量工作室数据集上进行多视角一致性生成训练。
- 后期训练：引入空间锚点（Spatial Anchor）信号，进一步提升3D一致性。
推理时的注意力偏置技术：提出了一种注意力偏置方法，解决了生成更多视角时质量下降的问题。
改进的3D一致性评估指标：设计了一种新的3D一致性评估方法，通过2D关键点匹配、三角测量和重投影误差来量化3D一致性。

应用的技术

Diffusion Transformer（DiT）：用于生成高质量的多视角图像。
自注意力机制：用于条件多视角生成，增强模型的条件生成能力。
轻量级空间控制：如空间锚点（Spatial Anchor）和Plücker坐标，用于编码目标相机姿态。
注意力偏置技术：用于控制多视角生成时的熵增长，提升生成质量。
2D关键点匹配与三角测量：用于评估3D一致性，通过重投影误差量化生成结果的几何正确性。

达到的效果

高质量多视角生成：Pippo能够从单张图像生成1K分辨率的多视角一致图像，且无需额外的参数化模型或输入图像的相机参数。
3D一致性提升：通过多阶段训练和空间锚点信号，显著提升了生成图像的3D一致性。
推理时生成更多视角：通过注意力偏置技术，Pippo能够在推理时生成比训练时多5倍的视角，且保持高质量。
评估指标改进：提出的3D一致性评估指标能够更准确地量化生成结果的几何正确性，Pippo在该指标上优于现有方法。

方法

本文采用三阶段策略训练模型：

仅图像预训练（P1）：在以人为中心的大规模数据集上进行预训练，使用图像条件。
多视角中期训练（M2）：在128×128的低分辨率下训练模型，对48个目标视角进行去噪，并使用粗略的相机控制（无像素对齐的空间控制）。
多视角后期训练（P3）：在1024×1024的高分辨率下训练模型，对1-3个目标视角进行去噪，并通过ControlMLP层注入空间控制。

将任何给定模型的训练阶段和分辨率表示为{stage}@{resolution}。例如，M2@128表示在128分辨率下进行中期训练的模型。

###基础模型架构：本文采用类似DiT的架构（见下图3），受Stable Diffusion 3 和Flux启发，使用尺度、偏移和门调制进行时间步条件控制。通过并行使用MLP和注意力机制简化了架构，并移除了注意力层后的第二个LayerNorm。我们使用VAE在潜在空间中进行训练，空间压缩率为8倍，并通过线性层和2的patch大小对潜在图像进行分块。在训练期间使用固定的正弦位置编码。