12、多用户对话系统：设计、功能与应用

sre5engineer

于 2025-07-05 14:26:58 发布

阅读量10

点赞数

CC 4.0 BY-SA版权

分类专栏：多模态界面创新：eNTERFACE 2013的突破文章标签：多用户对话系统 Furhat机器人 IrisTK框架

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/sre5engineer/article/details/149368625

多模态界面创新：eNTERFACE 2013的突破专栏收录该内容

22 篇文章 ¥399.00 ¥499.90

订阅专栏

超级会员免费看

多用户对话系统：设计、功能与应用

1. 对话系统架构

在这个项目中，采用了用于多模态口语对话系统的 IrisTK 框架来创建对话系统，并控制 Furhat 机器人头部。该框架允许集成一系列模块，并促进它们之间基于事件的标准化通信。这些事件可以代表输入数据（感知）、系统应执行的操作（动作）或关于某个动作的反馈循环感知，以推断系统的物理状态。系统架构可根据需求进行不同的设置。

1.1 感官模块

感官模块负责从环境中收集信息，具体如下：
- 卡片跟踪模块 ：负责两项不同的任务，一是跟踪正在讨论的卡片，二是在讨论结束时，为系统提供卡片顺序。
- Kinect 设备 ：两个 Kinect 用于跟踪头部的方向，以推断视觉注意力。通过头部位置，系统可以了解说话者的位置；通过头部方向，系统可以跟踪说话者的注意力焦点和交流对象。
- 麦克风阵列 ：为了将视觉注意力与言语活动相结合，系统采用了一个由六个麦克风组成的 Microcone™ 麦克风阵列，这些麦克风围绕一个圆圈排列，总共覆盖 360 度。麦克风用于对对话中的每个参与者进行语音活动检测（VAD）。

1.2 执行模块

执行模块负责执行可见的动作，具体如下：
- Furhat 模块 ：负责管理代理的面部表情、凝视、手势和语音合成任务。
- 颈部模块 ：主要通过利用 Kinect 面部跟踪模块的输入，将注意力导向说话者，从而实现头部运动。

下面

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。