语音驱动的机器人面部动作生成
1. 研究背景与相关工作
在人机交互领域,让机器人能够根据语音生成自然的面部动作是一个重要的研究方向。相关工作主要集中在生成模型、面部图像或动画生成以及机器人面部动作生成这几个方面。
1.1 生成模型
生成模型在图像生成和时间序列数据生成任务中备受关注,常见的生成模型包括基于朴素贝叶斯、变分自编码器(VAE)、生成对抗网络(GAN)以及基于归一化流技术的模型。例如:
- Habibie等人提出了循环变分自编码器模型,用于根据控制信号生成人类动作,可应用于序列预测任务。
- Isola等人基于条件GAN模型构建了图像到图像的翻译网络,在生成损失函数中考虑了L1距离,以获得更好的生成结果并简化训练过程。
- Heter等人使用归一化流技术提出了用于运动合成的概率可控模型,能够实现一对多的映射,即风格可控的生成。
1.2 面部图像或动画生成
语音驱动的面部视频或动画生成并非新的研究课题。相关研究方法如下:
- Vougioukas等人构建了时间GAN模型用于语音驱动的面部动画生成,该模型以静态图像和语音音频为输入,输出逼真的面部图像序列。为提高生成序列的随机性,引入了噪声生成器,并在生成器损失函数中考虑了L1重建损失。
- Zhou等人构建了基于LSTM的富有表现力的面部动画生成模型,借助解纠缠学习技能实现音频内容和风格的分离,能够生成具有相同说话者风格的不同说话动画。
- 还有一些研究关注面部关键点位置的生成,用于控制虚拟面部头像。如Sadoughi等人提出条件顺序GAN(CSG)模型生成说话时的嘴唇动作;Abdelazi等人描述了一种新的共语音面
超级会员免费看
订阅专栏 解锁全文
62

被折叠的 条评论
为什么被折叠?



