尽管现有的单次说话人头部生成模型在粗粒度情绪编辑方面取得了进展,但仍缺乏高可解释性的细粒度情绪编辑模型。本文提出了LES-Talker,这是一种具有高可解释性的新颖单次说话人头部生成模型,能够实现跨情绪类型、情绪级别和面部单元的细粒度情绪编辑。文章提出了一种基于面部动作单元的线性情绪空间(LES)定义,用以表征情绪转换作为向量转换。作者设计了跨维度注意力网络(CDAN),深入挖掘LES表示与3D模型表示之间的相关性。通过挖掘不同特征和结构维度之间的多重关系,使LES表示能够指导3D模型的可控变形。为了适应偏离LES的多模态数据并提高视觉质量,采用了专门的网络设计和训练策略。实验表明,论文的方法不仅提供了高质量的视觉效果,还实现了多层次且可解释的细粒度情感编辑,超越了主流方法。
论文题目:LES-Talker: Fine-Grained Emotion Editing for Talking Head Generation in Linear Emotion Space
论文链接:https://arxiv.org/abs/2411.09268
项目链接:https://peterfanfan.github.io/LES-Talker/