论文链接:https://arxiv.org/pdf/2502.07785
项目链接:https://yashkant.github.io/pippo/
亮点直击
一种生成模型:能够从单张图像生成高分辨率和多视角一致的人体,并提出了有效的训练策略。
一种扩散Transformer架构:专为增强多视角生成和视角控制而设计。
一种注意力偏置技术:能够在推理时生成比训练时多5倍以上的视角。
一种新颖的3D一致性指标:用于准确衡量生成任务中的3D一致性水平。
总结速览
解决的问题
-
高质量多视角数据获取成本高:传统方法需要高质量的多视角工作室数据来创建逼真的人体表示,但这些数据获取成本高,限制了可扩展性。
-
野外数据缺乏3D或多视角表示:大规模、非结构化的野外人体图像和视频虽然丰富,但缺乏真实的3D或多视角表示。
-
多视角生成模型的3D一致性问题:现有方法在生成多视角图像时,难以保证3D一致性,且现有评估指标无法准确衡量3D一致性。
提出的方案
-
Pippo模型:提出了一种基于Diffusion Transformer的生成模型Pippo,能够从单张随意拍摄的照片生成1K分辨率的多视角一致图像。
- 多阶段训练策略:
-
预训练:在大规模野外人体图像数据集上进行预训练。
-
中期训练:在高质量工作室数据集上进行多视角一致性生成训练。
-
后期训练:引入空间锚点(Spatial Anchor)信号,进一步提升3D一致性。
-
-
推理时的注意力偏置技术:提出了一种注意力偏置方法,解决了生成更多视角时质量下降的问题。
-
改进的3D一致性评估指标:设计了一种新的3D一致性评估方法,通过2D关键点匹配、三角测量和重投影误差来量化3D一致性。
应用的技术
-
Diffusion Transformer(DiT):用于生成高质量的多视角图像。
-
自注意力机制:用于条件多视角生成,增强模型的条件生成能力。
-
轻量级空间控制:如空间锚点(Spatial Anchor)和Plücker坐标,用于编码目标相机姿态。
-
注意力偏置技术:用于控制多视角生成时的熵增长,提升生成质量。
-
2D关键点匹配与三角测量:用于评估3D一致性,通过重投影误差量化生成结果的几何正确性。
达到的效果
-
高质量多视角生成:Pippo能够从单张图像生成1K分辨率的多视角一致图像,且无需额外的参数化模型或输入图像的相机参数。
-
3D一致性提升:通过多阶段训练和空间锚点信号,显著提升了生成图像的3D一致性。
-
推理时生成更多视角:通过注意力偏置技术,Pippo能够在推理时生成比训练时多5倍的视角,且保持高质量。
-
评估指标改进:提出的3D一致性评估指标能够更准确地量化生成结果的几何正确性,Pippo在该指标上优于现有方法。
方法
本文采用三阶段策略训练模型:
-
仅图像预训练(P1):在以人为中心的大规模数据集上进行预训练,使用图像条件。
-
多视角中期训练(M2):在128×128的低分辨率下训练模型,对48个目标视角进行去噪,并使用粗略的相机控制(无像素对齐的空间控制)。
-
多视角后期训练(P3):在1024×1024的高分辨率下训练模型,对1-3个目标视角进行去噪,并通过ControlMLP层注入空间控制。
将任何给定模型的训练阶段和分辨率表示为{stage}@{resolution}
。例如,M2@128
表示在128分辨率下进行中期训练的模型。
###基础模型 架构:本文采用类似DiT的架构(见下图3),受Stable Diffusion 3 和Flux启发,使用尺度、偏移和门调制进行时间步条件控制。通过并行使用MLP和注意力机制简化了架构,并移除了注意力层后的第二个LayerNorm。我们使用VAE在潜在空间中进行训练,空间压缩率为8倍,并通过线性层和2的patch大小对潜在图像进行分块。在训练期间使用固定的正弦位置编码。
仅图像预训练:在预训练期间,模型学习去噪图像,条件是其对应的DINOv2图像嵌入,这与DALL-E 2的图像解码器原理相似。使用线性层将嵌入投影到模型维度,以创建联合条件。重要的是,预训练设置不需要任何注释或图像描述,并且与我们的下游目标(即给定单张参考图像生成一致的多视角图像)