13、人机全句视觉问答交互系统的研究与实践

人机全句视觉问答交互系统的研究与实践

1. 系统模块介绍

在人机交互系统中,多个模块协同工作以实现视觉问答(VQA)功能,各模块的具体功能如下:
- 语音识别器 :利用谷歌的语音识别 API,将用户的语音转化为文本。
- 图像管理器 :当 VQA 规划器请求当前图像时,从内置摄像头捕获图像,并将其传递给 VQA 规划器。
- TTS 管理器 :使用 Naver 的文本转语音 API,将 VQA 服务器生成的完整句子答案转换为可播放的语音文件,然后通过内置扬声器播放。
- 唇同步模块和面部模拟器 :在播放语音文件时,唇同步模块通过周期性地将面部模拟器的嘴巴形状改变为预定义的形状来创建唇部动作。面部模拟器以 10 fps 的间隔更新平板电脑显示屏上的 3D 面部头像。
- 电机控制器 :根据 VQA 规划器的信号,控制机器人颈部的运动,以确定机器人的注视方向。
- VQA 服务器 :用于网络推理。在实际交互中,它从机器人平台的 VQA 规划器获取图像和问题文本,针对图像和问题对生成答案,并将答案返回给 VQA 规划器。

2. 颈部移动算法

为了克服机器人在当前视角下无法找到指定对象的限制,提出了颈部移动算法。该算法的主要目的是定位指定对象,具体实现过程如下:
- 算法 1:VQA 交互例程


                
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值