what comprises a good talking-head video generation?: a survey and benchmark 初步解读

最新推荐文章于 2025-12-22 22:11:53 发布

原创最新推荐文章于 2025-12-22 22:11:53 发布 · 207 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #计算机视觉

headTalker 同时被 2 个专栏收录

2 篇文章

订阅专栏

实验室

2 篇文章

订阅专栏

本文探讨了面部图像和驱动源如何合成逼真的头部说话视频，涉及应用场景、挑战、评估指标如LRSDE、BSD和情感相似度，以及作者的贡献，包括时间依赖的生成技术和代码库。

任务：生成头部说话视频

给定一个（或几个）面部图像和驱动源（例如，一段音频语音或一系列面部表情标记），头部说话视频生成的任务是合成一个逼真的动画头像
与驱动源对应的视频。

应用

应用场景

带宽有限的视频转换
角色扮演视频的远程呈现游戏
用其他语言重新配音视频用于视频会议
虚拟主播

其他应用方式

增强语音理解能力，同时保护隐私或听力障碍人士的辅助设备。

它有利于对抗性攻击的研究安全性并为监督学习方法提供更多的训练样本。

挑战性

变形一个会说话的人由个人的内在主体组成特征、外部摄像机位置、头部运动，以及面部表情，非常复杂。
这复杂性不仅仅源于建模面部区域，还来自对头部运动和背景的建模。
利用参考视频中包含的什么样的视觉信息仍然没有解决。
微妙的伪影问题和人们敏感的感知身份变化在基于学习的方法合成视频中很难避免

本文重点

In this paper, we focus on surveying and evaluating identity-independent talking-head generation methods.

其他人工作的缺失

定量估计不太好

手动方式检查生成图像视觉保真度，太没依据

专注于数据的有限部分，忽略了总体分布特征（对于无监督学习是非常重要的特征），而且耗时且可能误导

本文评估指标

In this paper, we mainly discuss and assess talking-head video generative approaches by either designing or choosing evaluation
metrics concerning the four desiderata:

identity preserving 身份匹配程度
visual quality

semantic-level lip synchronization

新的唇形同步指标——唇读相似度距离
（LRSD），评估嘴唇同步运动

natural-spontaneous motion

潜意识在头部说话的视频中眨眼，我们
引入基于学习的指标——眨眼相似度
距离（BSD）评估眨眼质量

新的评估指标——情感相似度ESD 评估面部情绪

包括情感表达
视觉、眨眼和头部运动。

本文贡献：

通过LRSD ESD BSD 评估视频质量

一些特殊情况的发现

建立有关技术的代码储存库：

图像抠图、少样本生成器、注意力机制
基于嵌入和 3D 图形模块。

实现优化四个评价指标的方法

identity preserving 没看懂

visual quality

image matting function

1时间依赖性进行建模以实现 随着时间的推移，面部过渡更加平滑。具体来说，宋等人（2018）提出了一种循环生成器，该生成器考虑生成阶段的时间依赖性以及一个时空判别器，用于判断在判别期间在视频级别合成视频化阶段。
2同样，Vougioukas 等人。 （2019）提出序列鉴别器由时空组成卷积和 GRU 来提取瞬态特征并确定序列是否真实。