44、人机交互系统中的多模态句子相似度研究

最新推荐文章于 2025-12-17 08:18:49 发布

m0n1o2p

最新推荐文章于 2025-12-17 08:18:49 发布

阅读量44

点赞数

CC 4.0 BY-SA版权

分类专栏：智能信息与工程系统前沿文章标签：人机交互多模态句子句子相似度

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/m0n1o2p/article/details/149376472

智能信息与工程系统前沿专栏收录该内容

99 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

人机交互系统中的多模态句子相似度研究

1 引言

尽管如今有大量的通信技术可供使用，但面对面交流在我们的工作活动中仍占据着重要地位。人们对自然交互方式兴趣浓厚，并且在开发相关技术以支持此类交互方式以及改进计算机端的解释方面投入了大量精力。

多模态交互系统将视觉信息与语音、手势等多种模态相结合，为用户提供了灵活而强大的对话方式。用户可以通过语音、手写、草图绘制和手势等输入信息，系统则可以通过图标、文本、声音和语音等输出信息。

多模态语言由一组多模态句子构成，多模态句子包含原子元素，形成特征结构（CS）。多模态句子可定义为多模态消息、赋予句子含义的多模态描述、将消息与描述映射的解释函数以及将描述与消息映射的具体化函数的函数。

本文旨在提出一种新方法，以考虑不同模态之间的协作方式，将多模态输入句子与模板进行匹配，并考虑用户行为对系统识别的多模态输入的影响。最终的多模态输入句子将与知识库中存储的模板进行匹配，以提供句子的解释，句子可以精确匹配模板或近似匹配。

2 运行示例

为了解释本文的方法，我们考虑以下示例：用户绘制一个实体 - 关系图，并为每个结构分配标签。为了简化，假设输入仅由语音和草图两种模态组成。

用户绘制如图 1a 所示的图表，并说出如图 1b 所示的句子。系统需要解释这个多模态句子，并将其具体化，如图 1c 所示。为了简单起见，我们仅考虑“教学关系”的创建。用户说：“菱形是教学关系”，同时绘制了一个菱形（用户意图）。

输入类型	具体内容

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。