人机交互系统中的多模态句子相似度研究
1 引言
尽管如今有大量的通信技术可供使用,但面对面交流在我们的工作活动中仍占据着重要地位。人们对自然交互方式兴趣浓厚,并且在开发相关技术以支持此类交互方式以及改进计算机端的解释方面投入了大量精力。
多模态交互系统将视觉信息与语音、手势等多种模态相结合,为用户提供了灵活而强大的对话方式。用户可以通过语音、手写、草图绘制和手势等输入信息,系统则可以通过图标、文本、声音和语音等输出信息。
多模态语言由一组多模态句子构成,多模态句子包含原子元素,形成特征结构(CS)。多模态句子可定义为多模态消息、赋予句子含义的多模态描述、将消息与描述映射的解释函数以及将描述与消息映射的具体化函数的函数。
本文旨在提出一种新方法,以考虑不同模态之间的协作方式,将多模态输入句子与模板进行匹配,并考虑用户行为对系统识别的多模态输入的影响。最终的多模态输入句子将与知识库中存储的模板进行匹配,以提供句子的解释,句子可以精确匹配模板或近似匹配。
2 运行示例
为了解释本文的方法,我们考虑以下示例:用户绘制一个实体 - 关系图,并为每个结构分配标签。为了简化,假设输入仅由语音和草图两种模态组成。
用户绘制如图 1a 所示的图表,并说出如图 1b 所示的句子。系统需要解释这个多模态句子,并将其具体化,如图 1c 所示。为了简单起见,我们仅考虑“教学关系”的创建。用户说:“菱形是教学关系”,同时绘制了一个菱形(用户意图)。
输入类型 | 具体内容 |
---|