多用户对话系统:设计、功能与应用
1. 对话系统架构
在这个项目中,采用了用于多模态口语对话系统的 IrisTK 框架来创建对话系统,并控制 Furhat 机器人头部。该框架允许集成一系列模块,并促进它们之间基于事件的标准化通信。这些事件可以代表输入数据(感知)、系统应执行的操作(动作)或关于某个动作的反馈循环感知,以推断系统的物理状态。系统架构可根据需求进行不同的设置。
1.1 感官模块
感官模块负责从环境中收集信息,具体如下:
- 卡片跟踪模块 :负责两项不同的任务,一是跟踪正在讨论的卡片,二是在讨论结束时,为系统提供卡片顺序。
- Kinect 设备 :两个 Kinect 用于跟踪头部的方向,以推断视觉注意力。通过头部位置,系统可以了解说话者的位置;通过头部方向,系统可以跟踪说话者的注意力焦点和交流对象。
- 麦克风阵列 :为了将视觉注意力与言语活动相结合,系统采用了一个由六个麦克风组成的 Microcone™ 麦克风阵列,这些麦克风围绕一个圆圈排列,总共覆盖 360 度。麦克风用于对对话中的每个参与者进行语音活动检测(VAD)。
1.2 执行模块
执行模块负责执行可见的动作,具体如下:
- Furhat 模块 :负责管理代理的面部表情、凝视、手势和语音合成任务。
- 颈部模块 :主要通过利用 Kinect 面部跟踪模块的输入,将注意力导向说话者,从而实现头部运动。
下面