【AI论文】OmniHuman-1: 重新思考一阶段条件式人体动画模型的扩展升级

摘要:端到端的人体动画技术,如音频驱动的说话人物生成,近年来取得了显著的进步。然而,现有方法在大规模通用视频生成模型方面的扩展仍然存在困难,限制了它们在实际应用中的潜力。在本文中,我们提出了OmniHuman,一个基于扩散变换器的框架,该框架通过将运动相关条件融入训练阶段来扩展数据规模。为此,我们为这些混合条件引入了两种训练原则,以及相应的模型架构和推理策略。这些设计使OmniHuman能够充分利用数据驱动的运动生成,最终实现高度逼真的人体视频生成。更重要的是,OmniHuman支持各种肖像内容(面部特写、肖像、半身、全身),既支持说话也支持唱歌,能够处理人与物体的交互和具有挑战性的身体姿势,并且适应不同的图像风格。与现有的端到端音频驱动方法相比,OmniHuman不仅生成的视频更加逼真,而且在输入方面提供了更大的灵活性。它还支持多种驱动模式(音频驱动、视频驱动以及组合驱动信号)。视频样本可在项目页面(https://omnihuman-lab.github.io)上查看。Huggingface链接:Paper page,论文链接:2502.01061

一、引言

近年来,随着扩散变换器(Diffusion Transformer, DiT)视频扩散模型的兴起,通用视频生成领域,包括文本到视频(Text-to-Video)和图像到视频(Image-to-Video)等,取得了显著进展。这些进步主要得益于大规模训练数据的支持,这些数据通常以视频-文本对的形式存在。通过扩展训练数据集,DiT网络能够学习各种对象和场景的运动先验知识,从而在推理阶段展现出强大的泛化能力。

在端到端人体动画模型方面,无论是姿态驱动的人体动画还是音频驱动的说话人物生成,都取得了快速发展。然而,这些方法主要局限于特定的训练数据集,为了简化学习过程,这些数据集经过了严格的筛选,从而限制了它们在实际应用中的适用场景。例如,大多数现有的端到端音频条件模型仅限于面部或肖像动画,而姿态条件模型则主要处理从正面视角捕捉的全身图像,且背景静态。至今,尚未有工作尝试扩展训练数据以实现更通用的人体动画。

二、背景与挑战

尽管现有的人体动画模型已经能够生成逼真的结果,但它们在大规模数据集上的扩展仍然面临挑战。直接增加更多数据并不总是对网络训练有益。以音频条件模型为例,音频主要与面部表情相关,而与身体姿势、背景运动、相机移动或光照变化等关联不大。因此,原始训练数据必须经过过滤和裁剪,以最小化这些不相关因素的影响。类似地,姿态条件模型也需要进行广泛的过滤、裁剪和清理。这些过程导致大量数据被丢弃,而这些数据中包含了对于训练数据扩展至关重要的运动模式。

三、OmniHuman模型提出

为了解决上述挑战,本文提出了OmniHuman模型,一个基于混合条件训练策略的一阶段条件式人体动画模型。OmniHuman的关键见解是,在训练过程中融入多种条件信号(如文本、音频和姿态)可以显著减少数据浪费。这种方法具有两大优势:一方面,对于单一条件模型(如音频或姿态条件)会被丢弃的数据,可以在较弱或更一般的条件任务(如文本条件)中被利用,从而使模型能够学习更多样化的运动模式,缓解数据过滤带来的限制;另一方面,不同的条件信号可以相互补充。例如,虽然音频单独无法精确控制身体姿势,但更强的条件信号(如姿态输入)可以提供额外的指导。通过在训练过程中结合音频数据和更强的条件信号,旨在减少过拟合并提高生成结果的泛化能力。

四、OmniHuman模型架构与训练策略

1. 模型架构

OmniHuman模型基于先进的视频生成模型架构DiT构建。它支持同时使用多种模态进行条件设置,包括文本、图像、音频和姿态。模型以预训练的Seaweed模型为基础,该模型使用MMDiT(Multimodal Diffusion Transformer)并在一般文本-视频对上进行预训练,以执行文本到视频和文本到图像的任务。给定一张参考图像,OmniHuman模型旨在使用一种或多种驱动信号(包括文本、音频和姿态)生成人体视频。

为了实现这一点,OmniHuman模型采用了多种策略将帧级音频特征和姿态热图特征融入模型中。模型使用3D因果变分自编码器(3D Causal VAE)将视频投影到其原生大小的潜在空间中,并采用流匹配(Flow Matching)作为训练目标来学习视频去噪过程。此外,模型还采用了一个三阶段混合条件后训练方法来逐步将扩散模型从一般的文本到视频模型转变为多条件人体视频生成模型。

2. 训练策略

为了利用混合数据进行扩展,OmniHuman引入了两种训练原则:

  • 原则一:较强的条件任务可以利用较弱的条件任务及其对应的数据来实现数据扩展。在模型训练过程中,由于过滤标准(如唇音同步准确性、姿态可见性和稳定性)而被音频和姿态条件任务排除的数据,可以在文本和图像条件任务中使用,因为这些数据符合较弱条件的标准。
  • 原则二:条件越强,训练比例应越低。在训练过程中,较强的运动相关条件(如姿态)通常比较弱的条件(如音频)训练得更好,因为较弱的条件存在更多模糊性。当两种条件都存在时,模型倾向于依赖较强的条件进行运动生成,从而阻止较弱的条件有效学习。因此,我们确保较弱的条件具有更高的训练比例,而较强的条件具有较低的训练比例。

基于这些原则,OmniHuman的训练过程分为三个阶段:第一阶段仅使用文本和图像条件;第二阶段加入音频条件;第三阶段加入姿态条件,并逐步降低各条件的训练比例。

五、实验与结果

1. 数据集与基线模型

通过基于美学、图像质量、运动幅度等标准对视频生成数据集进行过滤,我们获得了18.7K小时的人体相关数据用于训练。其中,13%的数据通过唇音同步和姿态可见性标准被选中,以支持音频和姿态模态。在测试阶段,我们采用与肖像动画方法Loopy和半身动画方法CyberHost相同的评估标准,并从公开肖像数据集(如CelebV-HQ和RA VDESS)中随机抽取了100个视频作为测试集。

2. 定量比较

与现有的音频条件肖像动画和身体动画基线模型相比,OmniHuman在几乎所有评估指标上都取得了最佳结果。特别是在FID(Fréchet Inception Distance)和FVD(Fréchet Video Distance)等视觉质量指标上,OmniHuman显著优于其他方法,反映了其生成视频的高度真实性。此外,OmniHuman还支持多种输入比例和身体比例,这是现有方法所不具备的。

3. 定性分析

通过可视化结果,我们可以看到OmniHuman在生成具有高度动态范围和自然运动的视频方面的优势。特别是在处理复杂输入图像和具有挑战性的身体姿势时,OmniHuman能够生成准确的唇音同步和自然的运动。此外,OmniHuman还展示了在物体交互和手势生成方面的卓越能力。

4. 消融研究

消融研究验证了OmniHuman训练原则的有效性。通过调整不同条件(如音频、姿态和参考图像)的训练比例,我们发现适当的比例对于实现最佳性能至关重要。过高或过低的比例都会导致性能下降。

六、结论

本文提出了OmniHuman,一个基于混合条件训练策略的端到端多模态条件式人体视频生成框架。通过融入多种运动相关条件及其对应的数据,OmniHuman能够克服现有方法在高质量数据稀缺方面的限制,实现高度逼真的人体视频生成。OmniHuman支持多种肖像内容、说话和唱歌功能,能够处理人与物体的交互和具有挑战性的身体姿势,并且适应不同的图像风格。与现有方法相比,OmniHuman不仅生成的视频更加逼真,而且在输入方面提供了更大的灵活性。

未来工作可以进一步探索如何优化OmniHuman的训练过程以提高效率,并扩展其应用场景以支持更多样化的任务。此外,还可以研究如何将OmniHuman与其他先进技术(如强化学习)结合以进一步提升生成视频的质量和多样性。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值