基于扩散的视频生成技术显著改善了零样本说话人头像生成,增强了头部动作和面部表情的自然度。然而,现有方法存在控制性差的问题,使其在电影制作和电子商务直播等现实世界场景中的应用较少。为了解决这一限制,我们提出了FLAP,一种将显式的3D中间参数(头部姿势和面部表情)整合到扩散模型中,用于端到端生成逼真肖像视频的新颖方法。所提出的架构允许模型从音频生成生动的肖像视频,同时结合额外的控制信号,如头部旋转角度和眨眼频率。此外,头部姿势与面部表情的解耦使得两者可以独立控制,从而精确操控虚拟形象的姿势和面部表情。我们还展示了其与现有3D头部生成方法的灵活性整合,弥合了基于3D模型的方法与端到端扩散技术之间的差距。广泛的实验表明,我们的方法在自然度和可控性方面均优于最近的音频驱动肖像视频模型。

论文题目:FLAP: Fully-controllable Audio-driven Portrait Video Generation through 3D head conditioned diffusion mode
论文链接:https://arxiv.org/abs/2502.19455
发表于:arXiv 2025
研究背景
- 研究问题:这篇文章要解决的问题是现有的基于扩散的图像生成技术在生成零样本说话头像时,虽然自然度较高,但在可控性方面表现较差,难以应用于电影制作和直播等实际场景。
- 研究难点:该问题的研究难点包括:如何在生成视频时保持高自然度
订阅专栏 解锁全文
909

被折叠的 条评论
为什么被折叠?



