社交机器人的多模态数据融合与人感知及自适应行为生成
在当今科技发展的浪潮中,社交机器人在人类生活中的角色愈发重要。为了实现自然、高效的人机交互,社交机器人需要具备对人类行为的准确感知和适应能力。本文将介绍社交机器人Haru的多模态数据融合与人感知系统,以及基于用户行为识别的自适应行为生成方法。
社交机器人Haru的多模态数据融合与人感知
语音处理流程
语音处理流程由三对过滤器(Combiner和Fusion)组成:
1. 第一对过滤器 :接收检测到的声音位置,并更新接收到的人员输入的“说话者置信度”字段。若收到人员消息但无声音检测,意味着无人说话,所有人员的该值会等量降低;若有声音检测,则增加声音方向所对应的人员的说话者置信度。说话者即为该字段值最高的人。为保持说话者置信度值的持续性,每次迭代都会保存这些值供下次迭代使用。
2. 第二对过滤器 :接收上一步处理后的人员信息,将最后一次自动语音识别(ASR)转录结果附加到说话者置信度最高的人员上。若所有人员的该值相同或都为零,则将转录结果关联到离指定位置(在本系统中为机器人当前位置)最近的人员。
3. 第三对过滤器 :与第二对类似,将唤醒词关联到说话者置信度最高的人员,若该值相同或为零,则关联到离机器人最近的人员。
以机器人与两个孩子玩石头剪刀布游戏为例,外部Azure Kinect相机和机器人内部麦克风阵列协同工作。机器人利用融合后的人员信息(包括位置、姓名和语音等)对孩子进行跟踪并交流,以吸引孩子参与游戏。Azure Kinect相机的图像用于收集面部和手部信息,
超级会员免费看
订阅专栏 解锁全文
22

被折叠的 条评论
为什么被折叠?



