MEMO:用于富有表现力的对话视频生成的记忆引导扩散模型

github:https://github.com/camenduru/memo-tost/blob/main/worker_runpod_gradio.py 

paper:https://arxiv.org/pdf/2412.04448v1

研究背景与挑战

音频驱动的对话视频生成(audio-driven talking video generation)在虚拟化身、数字内容创作等领域应用广泛,但面临三大核心挑战:无缝的 audio-lip synchronization、长期的 identity consistency,以及与音频情感匹配的自然表情生成。现有扩散模型多依赖过去 2-4 帧进行自回归生成,易导致误差累积(如帧 artifacts 传递),且采用固定情感标签,无法捕捉音频中的动态情感变化。

核心方法:MEMO 模型

MEMO 是一种端到端的音频驱动扩散模型,核心创新在于 Diffusion Net 中的两个模块,结合 Reference Net 实现高质量对话视频生成。

1. Memory-guided temporal module
  • 设计目的:解决现有方法依赖有限过去帧(2-4 帧)导致的长期 identity consistency 差和误差累积问题()。
  • 核心机制
    • 采用 linear attention 替代 self-attention,降低 GPU 内存开销,支持利用所有过去帧的信息()。
    • 引入 memory update 机制,通过衰减因子 γ(0<γ<1)动态更新 memory states(MKV​和MK​),使近期帧影响更大,实现隐式位置编码。
    • 生成当前视频片段时,通过 memory-guided linear attention 整合历史 memory 与当前帧特征,提供全面的时序指导,减少误差累积。
2. Emotion-aware audio module
  • 设计目的:提升 audio-lip synchronization,并使面部表情与音频动态情感对齐()。
  • 核心机制
    • Multi-modal attention:替代传统 cross attention,允许音频与视频特征更深度交互()。
    • Audio emotion detection:基于 Wav2Vec 2.0 提取音频特征,检测 8 种情感(angry、disgusted 等),并在子片段级别进行,增强鲁棒性()。
    • Emotion-adaptive layer norm:将情感嵌入整合到各层,通过 emotion-conditioned flow loss 指导生成()。
    • Emotion decoupling training:训练时使用同一人的不同情感参考图像,分离参考图像表情与音频情感,提升表情调整能力()。
3. 其他关键组件
  • Data processing pipeline:对 2200 + 小时原始视频进行过滤(如去除音频 - 嘴唇错位、低分辨率样本),最终保留 660 小时高质量数据(、)。
  • Decomposed training strategy:分两阶段训练,先适配面部特征,再整合新模块并采用鲁棒训练策略(过滤异常损失样本)。

实验与结果

1. 实验设置
  • OOD 数据集:两个测试集(VoxCeleb2 测试集和多样化自定义数据集),各含 150 个视频片段()。
  • 评估指标:FVD(视频质量)、FID(单帧质量)、Sync-D(音频 - 嘴唇同步)()。
  • 基线方法:包括两阶段方法(如 V-Express、AniPortrait)和端到端扩散模型(如 Hallo、Hallo2)()。
2. 关键结果
  • 定量结果:MEMO 在两个 OOD 数据集上的 FVD、FID、Sync-D 均优于所有基线,如 VoxCeleb2 测试集上 FVD 为 254.3(基线最低 293.9),Sync-D 为 7.4(基线最低 8.0)。
  • 人类评估:在 overall quality、motion smoothness 等 5 项指标上得分最高,验证其综合性能优势。
  • 消融实验
    • 验证 memory-guided temporal module 减少误差累积,提升长期 identity consistency(、)。
    • 证明 multi-modal attention 优于 cross attention,emotion-aware 机制有效优化表情 - 情感对齐。

结论与意义

MEMO 通过 memory-guided temporal module 和 emotion-aware audio module,有效解决了现有方法在长期一致性、情感对齐等方面的局限,生成的对话视频在真实性和表现力上显著提升。其无需依赖面部归纳偏置(如 face locator),为更广泛的视频生成任务(如 talking body)提供了基础。

 相关技术交流群:672907582
加群请备注(进群后请告知):来自优快云。 
专属群:868373192,277356808

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小李飞刀李寻欢

您的欣赏将是我奋斗路上的动力!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值