数据驱动的多模态学习应用探索
1. 多模态对话界面与系统特性
多模态对话界面可通过不同输入和输出模式与用户进行通信,方便用户输入并展示结果。部分系统将数据分析与能够模拟言语和非言语交流的虚拟形象相结合,在咨询、健康生活指导、个人训练等领域有应用。这些特性使得对话界面能成功用于教学目的,以及与用户建立长期关系的其他应用领域。此外,还有研究提出了可用性模型,可评估系统每次响应后用户的满意度,并根据交互质量评估自动修改系统响应。
2. 框架架构与主要组件
为了便于开发多模态对话界面,设计了一套架构,可用于开发教育应用,让学生通过语音和/或图形界面进行交互。该架构下的系统具有以下功能:
- 生成测试问卷,学生可通过回答问题完成问卷。
- 集成个性化虚拟形象。
- 分析学生提供的答案,并根据学生答案与系统中标注答案的比较分析生成适当反馈。
架构中的模块可灵活集成商业语音识别器和合成器,以及不同的语言理解和对话管理方法和技术,主要组件如下:
- 用户答案分析器 :检查学生输入经口语语言理解(SLU)模块分析后的答案是否与应用数据库中的参考答案匹配。使用语法和数据分析技术进行比较,计算相似度百分比,选择应传达给学生的建议和反馈。通过语法可增加系统灵活性,支持自然语言交互,并根据应用学科和主题调整内容。
- 对话管理器 :根据自动语音识别(ASR)和SLU模块的输出、两者提供的置信度度量以及用户答案分析器计算的相似度,确定系统的下一个响应。同时负责错误处理,采用置信度度量、n - 最佳选项、不同的确认策略(明确、隐含或混合确认)和对话主动性策略(系