论文总结:Emotional Talking Head Generation based on Memory-Sharing and Attention-Augmented Networks

本文介绍了一种技术,通过提取身份参考图像的特征点,结合音频的MFCC编码和情感特征提取,利用深度学习模型如MLP、LSTM和CBAM,生成具有真实情感和口型同步的面部标志,以实现更逼真的情感说话头生成。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

解决问题:大多数只关注唇音同步,缺乏再现目标人面部表情的能力。
在这里插入图片描述
论文的大致流程如上所示。首先使用Dlib从身份参考的图像中,提取特征点,经过由MLP组成的Elm。输入的音频经过MFCC编码,后分为两路。其中一路将编码后的结果送入Ea,另外一路将结果送入MSEF(Memory-Sharing Emotional Feature Extractor)。MESF用于提取情感特征。将Elm和Ea,MSEF的结果一起放入Audio2Lm(由LSTM和一个全连接层组成)。MSEF如下所示:在这里插入图片描述

emotion classifier是一个情感分类器,涉及到一个loss函数为:
在这里插入图片描述
y^为情感分类器预测的情感分类,y为真实的情感标签。Audio2Lm输出为每一帧的面部标志。这里生成的面部标志会与真实的面部标志之间使用loss函数,使生成的标志更加真实。随后将生成的标志与原始图片在通道的维度上拼接,最后放入AATU生成视频帧。
AATU的结构如下所示:们将预测的人脸特征点与参考人脸图像按通道连接起来,并将其作为编码器的输入。解码器的输出是逼真且口型同步的头部说话视频帧。在编码器和解码器的最初四层中,我们分别添加了 CBAM模块。CBAM由空间注意力和通道注意力两个子模块组成,实现了从通道到空间的顺序注意力结构。我们认为,在这个任务中,空间注意力使得神经网络能够更多地关注图像中对面部表情和唇形起决定作用的像素区域,而忽略不重要的区域。通道注意力用于处理特征图通道的分布关系。
在这里插入图片描述
https://paperswithcode.com/paper/emotional-talking-head-generation-based-on,在此网站上暂未找到源码。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值