文章链接:https://arxiv.org/pdf/2408.14211
git链接:https://thuhcsi.github.io/MagicMan
亮点直击
提出MagicMan,一种旨在从单一参考图像生成高质量多视角人像的方法,从而促进无缝的3D人体重建。
提出了一种高效的混合多视角注意力机制,以生成更密集的多视角人像,同时保持更好的3D一致性。
引入了几何感知的双分支结构,在RGB和法线领域同时进行生成,通过几何线索进一步增强多视角一致性。
提出了一种迭代优化策略,逐步提高SMPL-X姿态的准确性和生成的多视角一致性,减少由于SMPL-X估计不可靠导致的几何畸形问题。
现有的单图3D人体重建方法存在训练数据不足导致的泛化性局限问题和缺乏多视角知识导致的3D不一致问题。今天给大家分享一种名为MagicMan的人体多视角扩散模型,该模型旨在从单一参考图像生成高质量的新视角图像。其核心思路是利用预训练的2D扩散模型作为生成先验以提升泛化能力,并将参数化的SMPL-X模型作为3D人体先验,以增强几何感知能力。
为了解决在实现高密度多视角生成以改进3D人体重建时保持一致性的关键挑战,首先引入了混合多视角注意力机制,以促进不同视角之间的高效且全面的信息交换。此外,还提出了一种几何感知的双分支结构,同时生成RGB图像和表面发现,通过几何信息的补充进一步增强一致性。为了解决因SMPL-X估计不准确导致的几何畸形问题,又提出了一种新颖的迭代优化策略,该策略逐步优化SMPL-X的准确性,并最终提高生成多视图的质量和一致性。大量实验结果表明,本文的方法在新视角合成和后续的3D人体重建任务中显著优于现有方法。
方法
如下图3所示,MagicMan以单张人体参考图像为输入,生成高质量且一致性良好的密集多视角图像(即20个视角)。为了利用大量互联网数据中丰富的人体图像先验,MagicMan采用了一个预训练的扩散模型作为主干网络,以单张参考图像和对应的SMPL-X姿态及视角作为生成条件。通过引入一种高效的混合注意力机制建立不同视角之间的联系,该机制包括在所有视角进行的1D注意力和在特定稀疏视角上进行的3D注意力来同时确保计算效率和多视角一致性。此外又提出了一种几何感知的双分支结构,补充了额外的几何信息以提升几何稳定性和一致性。最后但同样重要的是,提出了一种新颖的迭代优化策略,通过在多次迭代中更新SMPL-X姿态的准确性和生成多视角图像的质量,减少由于姿态估计不准确导致的几何畸形问题。
条件扩散模型
本文的主干网络是一个去噪UNet,继承了SD 1.5的结构和预训练权重。标准的SD UNet由下采样模块、中间模块和上采样模块组成。每个模块包含若干交织的卷积层、特征进行空间交互的自注意力层,以及与CLIP文本嵌入交互的交叉注意力层。本文去噪UNet需要接收多个噪声潜变量作为输入,并生成与参考图像一致的特定视角下的人体图像。因此,需要将参考图像和视角信息注入生成网络,并提供对应的SMPL-X参数化人体模板作为几何指导,以便获得更好的3D一致性。
参考UNet网络。 受到动画驱动最新进展的启发,本文利用和去噪UNet具有相同结构和初始化权重的参考UNet网络从参考图像中提取特征,以确保生成的图像与参考图像在语义和像素级别上都能保持一致。具体来说