FLAP:通过3D头部条件扩散模型实现完全可控的音频驱动肖像视频生成

基于扩散的视频生成技术显著改善了零样本说话人头像生成,增强了头部动作和面部表情的自然度。然而,现有方法存在控制性差的问题,使其在电影制作和电子商务直播等现实世界场景中的应用较少。为了解决这一限制,我们提出了FLAP,一种将显式的3D中间参数(头部姿势和面部表情)整合到扩散模型中,用于端到端生成逼真肖像视频的新颖方法。所提出的架构允许模型从音频生成生动的肖像视频,同时结合额外的控制信号,如头部旋转角度和眨眼频率。此外,头部姿势与面部表情的解耦使得两者可以独立控制,从而精确操控虚拟形象的姿势和面部表情。我们还展示了其与现有3D头部生成方法的灵活性整合,弥合了基于3D模型的方法与端到端扩散技术之间的差距。广泛的实验表明,我们的方法在自然度和可控性方面均优于最近的音频驱动肖像视频模型。

在这里插入图片描述

论文题目:FLAP: Fully-controllable Audio-driven Portrait Video Generation through 3D head conditioned diffusion mode
论文链接:https://arxiv.org/abs/2502.19455
发表于:arXiv 2025

研究背景

  1. 研究问题:这篇文章要解决的问题是现有的基于扩散的图像生成技术在生成零样本说话头像时,虽然自然度较高,但在可控性方面表现较差,难以应用于电影制作和直播等实际场景。
  2. 研究难点:该问题的研究难点包括:如何在生成视频时保持高自然度
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

楠哥聊AI

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值