虚拟角色动画的反应式统计映射与身体所有权研究
1 引言
在模拟人类通信方式,如语音、面部表情或身体动作时,让虚拟角色看起来“更真实”一直是个挑战。然而,追求逼真度的过程并非线性的,会遇到“恐怖谷”现象,即当虚拟角色的反应“接近但未达到逼真外观”时,会出现从共情到反感的意外转变。
1.1 以内容为导向的表现力方法
过去几十年,声音合成、计算机图形学或计算机动画等研究领域都以各自的方式应对“恐怖谷”问题。生产人造人类模态的主要目标一直是“保留信息”,即确保听到或看到的内容至少能被正确理解,在语音合成中这被称为可懂度。后来,目标演变为“让它看起来更自然”,这促使这些领域的研究者使用实际人类表现的记录,从而超越了显式规则建模。如今,目标是为虚拟角色带来表现力和活力,期望它们能自动或通过创作展示各种令人信服的情感。但目前大量数据的使用方式缺乏灵活性,例如语音合成中的非均匀单元选择会拼接原始录音中的长语句,动画中的静态或动态姿势通常是从原始序列中混合而来,而没有深入理解其生成机制。
1.2 表演控制与机器学习
虽然大量数据的使用在一定程度上改善了虚拟类人角色动画,但仅靠这种方法还无法完全克服“恐怖谷”问题。目前,语音合成和面部/身体动画仍存在不恰当和令人困惑的地方。在这项研究中,我们认为用户交互在使虚拟类人角色更具表现力和活力方面起着重要作用。我们希望动画轨迹能在短时间内(毫秒级)对用户交互做出反应,但目前相关文献对此方面的研究较少。
为了将大量多模态数据集与短期用户交互结合起来,我们采用机器学习方法。在手势或语音识别、合成、转换以及隐式映射等领域,已经有很多关于机器学习技术应用的文献。虚拟角色的多模态动画在统计建模时需要考