PersonaLive! Expressive Portrait Image Animation for Live Streaming——用于直播的富有表现力的肖像图像动画

原创于 2026-01-01 01:00:00 发布 · 798 阅读

14 ·

CC 4.0 BY-SA版权

文章标签：

#PersonaLive #用于直播的富有表现力 #肖像图像动画 #Portrait Image #Animation #Live Streaming #数字人

这篇文章提出了一种名为 PersonalJive 的实时流式肖像动画生成方法，主要研究内容可概括如下：

一、核心问题

现有基于扩散模型的肖像动画方法虽能生成高质量、富有表现力的结果，但存在两大限制：

计算成本高：依赖多步去噪与CFG技术，推理速度慢。
长视频生成困难：现有分块处理方法导致时间不一致、误差累积，难以实现低延迟的流式生成。

二、方法概述

提出了一个三阶段的高效框架：

1. 图像级混合运动训练

结合隐式面部表示（控制面部表情）与3D隐式关键点（控制头部全局姿态），实现细粒度与全局运动控制。
使用PoseGuider与交叉注意力层注入运动信号。

2. 少步数外观蒸馏

观察到去噪早期已确定结构与运动，后期迭代多用于细化外观，存在冗余。
提出外观蒸馏策略，将多步去噪压缩为少步采样，用混合损失（MSE + LPIPS + 对抗损失）监督，提升推理效率。

3. 微块流式视频生成

微块流式范式：将去噪窗口划分为多个噪声水平递增的微块，逐步去噪并滑动生成，实现连续无重叠的帧生成。
滑动训练策略：模拟推理过程训练，缓解曝光偏差。
历史关键帧机制：动态选取历史关键帧作为参考，减少长期生成中的外观漂移。

三、实验与结果

数据集：VFHQ、NerSemble、DH-FaceVid-1K，评估使用TalkingHead-1KH与自建LV100长视频基准。
对比方法：包括X-Portrait、Follow-your-Emoji、Megactor-Σ等。
性能表现：
- 在自驱动与交叉驱动任务中，在视觉质量、身份保持、运动准确性上达到SOTA。
- 效率显著提升：推理速度达15.82 FPS（可提升至20 FPS），比现有方法快7–22倍，延迟仅0.253秒。
消融实验验证了各组件（蒸馏、滑动训练、历史关键帧等）对时间一致性与生成稳定性的关键作用。

四、贡献总结

提出首个面向实时流式生成的扩散肖像动画框架，实现低延迟、长期稳定的生成。
设计混合运动控制与少步外观蒸馏，在保证质量的同时大幅加速。
提出微块流式生成范式，结合滑动训练与历史关键帧机制，有效缓解曝光偏差与误差累积。

五、局限与展望

未充分挖掘帧间时间冗余，未来可进一步优化效率。
模型在非人类肖像（如卡通、动物）上泛化能力有限。
未来可探索更长去噪窗口与更广域的适应性。

核心创新点

实时性：首次在扩散模型中实现接近20 FPS的肖像动画生成。
流式生成：支持长视频连续生成，保持时间连贯性。
效率与质量平衡：通过蒸馏与微块设计，兼顾速度与保真度。

这里是自己的论文阅读记录，感兴趣的话可以参考一下，如果需要阅读原文的话可以看这里，如下所示：

官方项目地址在这里，如下所示：

摘要

当前基于扩散的肖像动画模型主要关注提升视觉质量和表情真实感，而忽略了生成延迟和实时性能，这限制了它们在直播场景中的应用范围。我们提出了PersonalJive，这是一个新颖的基于扩散的框架，旨在实现流式实时肖像动画，并配备了多阶段训练方案。具体来说，我们首先采用混合隐式信号，即隐式面部表示和3D隐式关键点，来实现富有表现力的图像级运动控制。接着，提出了一种少步数外观蒸馏策略，以消除去噪过程中的外观冗余，极大提高了推理效率。最后，我们引入了一种自回归的微块流式生成范式，配备了滑动训练策略和历史关键帧机制，以实现低延迟且稳定的长期视频生成。大量实验证明，PersonalJive实现了最先进的性能，比先前的基于扩散的肖像动画模型加速了7-22×倍。

1 引言

网红的直播已成为短视频社交媒体中最热门的领域之一。互联网为我们提供了伪装成虚拟存在的机会。早期的3D化身方法[3, 24, 64]无法重现富有表现力的动作，并且依赖于昂贵的运动捕捉设备。相比之下，肖像动画算法[52, 54, 60, 63]根据驱动视频捕获的动作（即详细的表情、姿态）对静态肖像图像进行动画化，显示出巨大的潜力。

最近，基于扩散的肖像动画方法[52, 54, 60, 63]因其强大的生成能力而成为主导范式。然而，直接在直播场景中使用这些模型存在两个主要障碍：(i) 高计算成本。当前方法主要侧重于提高视觉质量和运动一致性，而忽略了推理效率。它们大多需要超过20个去噪步骤[39]，并依赖CFG技术[16]来增强视觉保真度和表情控制，这阻碍了其实际应用；(ii) 分块处理的局限性。由于计算和内存限制，当前方法将长视频分割成多个固定长度的块并独立处理它们。为了提高块间的时间一致性，一些方法[52, 54, 55, 63]在相邻块之间引入 无需训练 的重叠帧，导致冗余计算和延迟增加。其他方法[20, 41, 53]重用先前生成块的最后几帧来增强跨块一致性，这不可避免地导致长视频生成过程中的误差累积。

我们认为，肖像动画主要涉及对高度相似帧之间的运动变化进行建模，这项任务可能不需要大量的去噪步骤。此外，与独立的分块生成相比，我们可以直接训练模型，使其能够根据先前生成帧的中间潜变量和上下文进行更长且连续的生成。

因此，我们提出了PersonalJive，这是一个基于扩散的肖像动画框架，用于实时、可流式的运动驱动动画。基于近期基于ReferenceNet的扩散动画方法[29, 52, 63]的成功，我们引入了几个新颖的组件。(i) 具有混合控制的运动迁移。对于肖像动画，有效的运动控制对于确保真实且富有表现力的合成至关重要。在这项工作中，我们采用混合运动信号，由隐式面部表示[63]和3D隐式关键点[11, 47]组成，以实现对面部动态和头部运动的同步控制。与现有方法中使用的2D地标点[4, 17]和运动帧[52, 56]相比，3D隐式关键点为头部运动提供了更灵活和可控的表示。(ii) 少步数外观蒸馏。我们观察到肖像动画在去噪过程中存在 外观冗余。具体来说，结构布局和运动在初始去噪步骤中就已确立，而随后的多次迭代则低效地花费在逐渐细化纹理和光照等外观细节上。为了解决这种低效性，我们引入了一种外观蒸馏策略，使预训练的扩散模型适应紧凑的采样计划，在不损害视觉质量的情况下显著提高了推理效率。(iii) 微块流式视频生成。通过之前的策略加速去噪过程后，我们进一步旨在为实时流式应用实现低延迟且时间连贯的视频生成。与依赖于具有均匀噪声水平潜变量的分块生成[13]不同，我们采用了一种自回归微块流式范式[5]，该范式在每个去噪窗口内为各微块分配逐渐更高的噪声水平，从而实现连续视频生成。为了缓解自回归范式中固有的曝光偏差[30, 36]，我们设计了滑动训练策略来消除训练和推理阶段之间的差异，以及一个有效的历史关键帧机制，该机制自适应地选择历史帧作为辅助参考，有效缓解了流式生成过程中的误差累积。大量的定量和定性结果表明，PersonalJive实现了最先进的性能，比先前的基于扩散的肖像动画模型加速了7-22倍。

本文的贡献可总结为：

我们提出了PersonalJive，一个用于实时、可流式肖像动画的少步数基于扩散的框架，实现了低延迟且稳定的长期质量。
我们设计了结合隐式面部表示和3D隐式关键点的混合运动信号，以实现对细粒度面部动态和头部运动的同步控制。此外，我们引入了一种少步数外观蒸馏策略来消除去噪中的外观冗余，在不损害视觉保真度的情况下极大提高了推理效率。
我们设计了一种配备了滑动训练策略和历史关键帧机制的自回归微块流式生成范式，有效缓解了曝光偏差和误差累积，实现了稳定的长期生成。
大量实验证明，我们的方法在实现显著更高效率的同时，达到了最先进的性能。

2 相关工作

基于扩散的肖像动画。 扩散模型[15, 39, 40]已展示出强大的生成能力，其中潜在扩散模型通过在较低维度的潜在空间中执行去噪过程，进一步提高了效率[33]。在此基础上，一些工作[46, 52, 54, 63]将预训练的扩散模型[1, 33, 45]扩展到具有明确结构条件的可控高保真肖像动画，例如面部关键点[14, 29, 31]、面部网格渲染[12, 26]和原始驱动视频[52, 55, 56]。这些方法通常使用ControlNet[61]或PoseGuider[17]将运动约束纳入生成过程。为了建模细粒度面部动态，近期工作[28, 46, 54, 63]引入了隐式面部表示。这一策略增强了对复杂面部表情细节的保留，实现了更灵活和逼真的动画。然而，上述方法主要关注提高视觉质量和运动一致性，而忽略了推理效率。在这项工作中，我们通过引入一个实时、可流式的扩散框架来解决这一限制，该框架能够实现高效且时间连贯的肖像动画。

长期肖像动画。 随着动画方法的快速发展和用户期望的提高，生成时间连贯的长期视频变得至关重要。由于计算限制，现有的基于扩散的方法[29, 52, 53, 64, 65]在短片段上训练，并依赖于推理时扩展来处理更长的序列。X-Portrait[52]和X-NeMo[63]采用提示词游走技术[42]来增强块边界的时间平滑度。Follow-your-emoji[29]设计了一种由粗到细的渐进策略，通过关键帧引导的插值生成中间帧。Sonic[19]通过时间感知的移位窗口建立全局的片段间连接，该窗口沿着时间步轴桥接前一个片段。尽管有这些进展，现有方法仍不适用于实时流式生成。虽然一些方法[20, 41, 53]利用"运动帧"来实现长视频的分块流式生成，但它们引入了额外的训练开销和不可避免的误差累积[43]。相比之下，我们引入了一种自回归微块框架，以实现流式且时间连贯的长期肖像动画。

扩散模型加速。 尽管性能强大，扩散模型的高计算成本使其远离实时应用。现有的加速策略大致可分为模型量化[9, 25, 50]和采样步骤减少[18, 27, 57, 58, 59]。ADD[35]结合对抗性和分数蒸馏目标来高效蒸馏扩散模型。将引导的反向扩散过程视为求解增强的概率流ODE，LCMs[27]直接在潜在空间中预测该ODE的解，减少了对多次迭代的需求。DMD[58]和DMD2[57]通过最小化扩散目标与生成器输出分布之间的近似KL散度，将多步扩散模型蒸馏为少步生成器。尽管有最近的进展，但很少关注蒸馏技术在肖像动画中的应用。在本文中，我们探索了扩散蒸馏在实时肖像动画中的应用。

图2：PersonalJive三阶段流程概述。(a) 图像级混合运动训练：使用隐式面部表示和3D隐式关键点学习富有表现力的运动控制。(b) 少步数外观蒸馏：消除去噪过程中的外观冗余，在不损害视觉质量的情况下提高推理效率。(c) 微块流式视频生成：一种自回归微块范式，配备滑动训练和历史关键帧，实现了低延迟且时间连贯的实时视频生成。

3 方法

3.1 图像级混合运动训练

3.2 少步数外观蒸馏

在混合运动控制的基础上，我们观察到在肖像动画中，每一帧的运动和结构布局很大程度上在最早的去噪步骤中就确定了，而随后的迭代主要细化外观细节，如图 3 所示。这一观察揭示了去噪过程中存在大量冗余，促使我们开发一种蒸馏策略，在保持视觉保真度的同时显著减少采样步骤。

3.3 微块流式视频生成

4. 实验

4.1 评估与比较

基线方法和指标。 我们将我们的方法与最先进的视频驱动肖像动画基线进行比较，包括基于 GAN 的 LivePortrait [11] 以及基于扩散的 X-Portrait [52]、Follow-your-Emoji [29]、Megactor-Σ [56]、X-NeMo [63] 和 HunyuanPortrait [54]。RAIN [37] 采用扩散强制框架 [5] 在动漫肖像数据上进行流式生成。然而，它没有解决曝光偏差和误差累积等基本挑战，且动漫肖像领域对于真实世界肖像动画来说过于简化。因此，我们将 RAIN 排除在比较之外。对于自我重演，实验在 TalkingHead-1KH 数据集 [47] 上进行。我们通过计算 L1、结构相似性、感知相似性和时间一致性差异来评估性能，分别评估图像质量、运动准确性和时间一致性。对于交叉重演，我们在我们收集的 LV100 基准测试上进行评估，该基准测试包含不同的身份和长视频序列。我们使用 ArcFace 分数 [7] 作为身份相似性指标。运动准确性计算为使用 SMIRK [32] 提取的生成图像与驱动图像之间的表情参数和姿态参数的平均 L1 距离，较低的值表示更好的表情和姿态相似性。FVD [44] 和 tLP [6] 用于评估时间连贯性。此外，我们报告每秒帧数以及平均块间延迟，以评估基于扩散的模型的效率。

自我重演。 对于每个测试视频，第一帧用作参考图像，其余帧用作序列生成的驱动输入和真实目标。如表 1 所示，尽管使用显著更少的去噪步骤，PersonaLive 在所有重建指标上达到了竞争性或更优的性能。

交叉重演。 如图 5 中的定性比较所示，与现有方法相比，PersonaLive 达到了竞争性或更优的视觉保真度。它在长序列中一致地重建面部细节并保持时间稳定性，而其他基线在具有挑战性的情况下可能表现出纹理平滑、身份漂移或运动不一致。定量地，如表 1 所示，PersonaLive 在身份保持和准确运动迁移方面取得了与现有方法相当的性能，同时获得了最佳的 FVD 和 tLP 分数。这些结果表明，PersonaLive 提供了改进的长期时间连贯性和更优的整体感知质量。

效率。 如表 1 所示，所提出的方法在推理效率上取得了实质性改进，运行速度为 15.82 FPS，平均延迟仅为 0.253 秒，远超现有的基于扩散的基线。此外，通过用 TinyVAE [2] 解码器替换标准 VAE 解码器，PersonaLive 可以进一步将推理速度提升到 20 FPS。对于所有基于扩散的竞争者，延迟报告时不使用块间的重叠帧。虽然这种设置允许它们执行分块流式生成，但缺乏重叠区域不可避免地导致块间时间一致性较弱。相比之下，PersonaLive 同时保持了实时性能和稳定的长期时间连贯性。

4.2 消融研究

为了验证我们关键组件的有效性，我们对少步数外观蒸馏策略和微块流式生成范式进行了全面的消融研究。

外观蒸馏。 如图 6 所示，在没有蒸馏的情况下直接减少采样步骤数量会导致视觉质量显著下降。加入外观蒸馏策略有效提高了重建质量；然而，输出仍然缺乏高频细节并显得过于平滑。虽然应用 CFG 可以增强保真度，但它会显著降低推理速度。相比之下，引入对抗损失使得模型能够在不依赖 CFG 的情况下生成更真实的结果，同时实现高视觉保真度和高效推理。

微块流式生成。 为了评估我们流式设计的贡献，我们检查了每个组件如何影响时间稳定性和长程一致性，如表 2 和图 7 所示。下面，我们给出详细介绍：

(1) 滑动训练策略。 移除滑动训练策略会导致模型仅在由真实帧构建的噪声输入上训练，导致训练-推理不匹配。由于模型从未学习纠正自身的预测漂移，误差迅速累积并产生严重的时间崩溃，这反映在 ID-SIM 的巨大下降以及其他指标上。图 7（最后一行）中的视觉伪影清楚地显示了时间退化。

(2) 历史关键帧。 如图 7 所示，移除历史关键帧机制会导致在未被参考肖像约束的区域出现明显的时间漂移。这些不一致性在长序列中累积，最终降低了时间稳定性。相比之下，加入历史关键帧有效抑制了这种漂移并稳定了长期生成。尽管 ID-SIM 略有下降，因为历史线索部分削弱了对参考肖像的依赖，但鉴于时间连贯性得到显著改善，这种权衡是可以接受的。

(3) 运动插值初始化。 为了分离运动插值初始化的效果，我们移除它并采用变长初始化策略 [49]。如图 7 所示，移除 MII 在序列开始时引入了明显的的外观失真。这些伪影源于训练与推理之间的不匹配，因为模型被迫从参考运动突然过渡到驱动运动。

(4) 块大小和注意力。 我们进一步检查了微块结构的影响。将块大小从 4 减少到 2 略微改善了时间一致性，但明显降低了身份相似性。这是因为较小的块大小降低了窗口内的变化，有助于稳定短期动态，但它也缩小了有效的时间感受野，限制了模型在较长序列中保持身份信息的能力。如图 7 所示，较小的块大小导致后续帧中出现更多伪影。将双向注意力替换为分块因果注意力导致相似的运动准确性，但身份相似性略有下降。

5. 结论

我们提出了 PersonaLive，一个通过三阶段策略实现流式肖像动画的高效基于扩散的框架。首先，我们引入了一个基于混合控制的基于扩散的图像动画框架。然后，通过引入外观蒸馏策略和微块流式生成范式，PersonaLive 实现了实时且低延迟的肖像动画。此外，我们设计了滑动训练策略和历史关键帧机制来缓解曝光偏差和误差累积，确保稳定的长期生成和增强的时间连贯性。我们进行了全面的实验，以证明所提出方法在视觉质量、时间连贯性和推理效率方面的优势。

局限性与未来工作。 虽然我们的方法实现了实时且时间连贯的流式肖像动画，但仍然存在两个主要限制。首先，当前框架没有显式利用连续帧之间的时间冗余，这可能潜在地提高推理效率，并为流式生成启用更长的去噪窗口。其次，我们的模型主要在人类面部数据上训练，因此难以泛化到具有非人类外观的域外肖像，例如卡通角色或动物，这可能导致眼睛和嘴巴模糊或扭曲等伪影，如图 8 所示。这些限制为未来研究中增强肖像动画模型在真实世界场景中的可扩展性和适用性指明了有前景的方向。