目录
贡献概述
我们提出了 TANGO,这是一个生成共同语音身体手势视频的框架。给定几分钟、单扬声器参考视频和目标语音音频,TANGO 生成具有同步身体姿势的高保真视频。TANGO 建立在手势视频重演 (GVR) 之上,它使用有向图结构拆分和检索视频剪辑——将视频帧表示为节点,将有效转换表示为边。我们解决了 GVR 的两个关键限制:GAN 生成的转换帧中的音频运动错位和视觉伪影。特别是,(i)我们建议使用潜在特征距离检索手势来改进跨模态对齐。为了确保潜在特征可以有效地模拟语音音频和手势运动之间的关系,我们实现了一个分层联合嵌入空间(AuMoCLIP); (