人机全句视觉问答交互系统的研究与实践
1. 系统模块介绍
在人机交互系统中,多个模块协同工作以实现视觉问答(VQA)功能,各模块的具体功能如下:
- 语音识别器 :利用谷歌的语音识别 API,将用户的语音转化为文本。
- 图像管理器 :当 VQA 规划器请求当前图像时,从内置摄像头捕获图像,并将其传递给 VQA 规划器。
- TTS 管理器 :使用 Naver 的文本转语音 API,将 VQA 服务器生成的完整句子答案转换为可播放的语音文件,然后通过内置扬声器播放。
- 唇同步模块和面部模拟器 :在播放语音文件时,唇同步模块通过周期性地将面部模拟器的嘴巴形状改变为预定义的形状来创建唇部动作。面部模拟器以 10 fps 的间隔更新平板电脑显示屏上的 3D 面部头像。
- 电机控制器 :根据 VQA 规划器的信号,控制机器人颈部的运动,以确定机器人的注视方向。
- VQA 服务器 :用于网络推理。在实际交互中,它从机器人平台的 VQA 规划器获取图像和问题文本,针对图像和问题对生成答案,并将答案返回给 VQA 规划器。
2. 颈部移动算法
为了克服机器人在当前视角下无法找到指定对象的限制,提出了颈部移动算法。该算法的主要目的是定位指定对象,具体实现过程如下:
- 算法 1:VQA 交互例程
超级会员免费看
订阅专栏 解锁全文
56

被折叠的 条评论
为什么被折叠?



