高分辨率3D人生成超简单!Pippo:Meta最新工作首次完成1K分辨率一致多视角人物图像生成

论文链接:https://arxiv.org/pdf/2502.07785
项目链接:https://yashkant.github.io/pippo/

亮点直击

  • 一种生成模型:能够从单张图像生成高分辨率和多视角一致的人体,并提出了有效的训练策略。

  • 一种扩散Transformer架构:专为增强多视角生成和视角控制而设计。

  • 一种注意力偏置技术:能够在推理时生成比训练时多5倍以上的视角。

  • 一种新颖的3D一致性指标:用于准确衡量生成任务中的3D一致性水平。

总结速览

解决的问题

  • 高质量多视角数据获取成本高:传统方法需要高质量的多视角工作室数据来创建逼真的人体表示,但这些数据获取成本高,限制了可扩展性。

  • 野外数据缺乏3D或多视角表示:大规模、非结构化的野外人体图像和视频虽然丰富,但缺乏真实的3D或多视角表示。

  • 多视角生成模型的3D一致性问题:现有方法在生成多视角图像时,难以保证3D一致性,且现有评估指标无法准确衡量3D一致性。

提出的方案

  • Pippo模型:提出了一种基于Diffusion Transformer的生成模型Pippo,能够从单张随意拍摄的照片生成1K分辨率的多视角一致图像。

  • 多阶段训练策略
    • 预训练:在大规模野外人体图像数据集上进行预训练。

    • 中期训练:在高质量工作室数据集上进行多视角一致性生成训练。

    • 后期训练:引入空间锚点(Spatial Anchor)信号,进一步提升3D一致性。

  • 推理时的注意力偏置技术:提出了一种注意力偏置方法,解决了生成更多视角时质量下降的问题。

  • 改进的3D一致性评估指标:设计了一种新的3D一致性评估方法,通过2D关键点匹配、三角测量和重投影误差来量化3D一致性。

应用的技术

  • Diffusion Transformer(DiT):用于生成高质量的多视角图像。

  • 自注意力机制:用于条件多视角生成,增强模型的条件生成能力。

  • 轻量级空间控制:如空间锚点(Spatial Anchor)和Plücker坐标,用于编码目标相机姿态。

  • 注意力偏置技术:用于控制多视角生成时的熵增长,提升生成质量。

  • 2D关键点匹配与三角测量:用于评估3D一致性,通过重投影误差量化生成结果的几何正确性。

达到的效果

  • 高质量多视角生成:Pippo能够从单张图像生成1K分辨率的多视角一致图像,且无需额外的参数化模型或输入图像的相机参数。

  • 3D一致性提升:通过多阶段训练和空间锚点信号,显著提升了生成图像的3D一致性。

  • 推理时生成更多视角:通过注意力偏置技术,Pippo能够在推理时生成比训练时多5倍的视角,且保持高质量。

  • 评估指标改进:提出的3D一致性评估指标能够更准确地量化生成结果的几何正确性,Pippo在该指标上优于现有方法。

方法

本文采用三阶段策略训练模型:

  • 仅图像预训练(P1):在以人为中心的大规模数据集上进行预训练,使用图像条件。

  • 多视角中期训练(M2):在128×128的低分辨率下训练模型,对48个目标视角进行去噪,并使用粗略的相机控制(无像素对齐的空间控制)。

  • 多视角后期训练(P3):在1024×1024的高分辨率下训练模型,对1-3个目标视角进行去噪,并通过ControlMLP层注入空间控制。

将任何给定模型的训练阶段和分辨率表示为{stage}@{resolution}。例如,M2@128表示在128分辨率下进行中期训练的模型。

###基础模型 架构:本文采用类似DiT的架构(见下图3),受Stable Diffusion 3 和Flux启发,使用尺度、偏移和门调制进行时间步条件控制。通过并行使用MLP和注意力机制简化了架构,并移除了注意力层后的第二个LayerNorm。我们使用VAE在潜在空间中进行训练,空间压缩率为8倍,并通过线性层和2的patch大小对潜在图像进行分块。在训练期间使用固定的正弦位置编码。

仅图像预训练:在预训练期间,模型学习去噪图像,条件是其对应的DINOv2图像嵌入,这与DALL-E 2的图像解码器原理相似。使用线性层将嵌入投影到模型维度,以创建联合条件。重要的是,预训练设置不需要任何注释或图像描述,并且与我们的下游目标(即给定单张参考图像生成一致的多视角图像)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值