多模态系统:自然语言与多媒体融合的前沿探索
1. 引言
传统用户界面常遵循直接操作范式,结合键盘、鼠标和屏幕。而新型人机界面旨在通过多种类人模态(如语音和手势)实现更自然的交互。自然语言作为重要的交流方式,其强大的表达能力能显著降低人机交流的学习成本。然而,当前自然语言对话系统的覆盖范围有限,且缺乏强大的语音识别器。非语言媒体的集成可弥补自然语言技术的不足,提高其可用性和可接受性。
术语方面,“媒介(medium)”“模态(modality)”和“编码(code)”需明确区分。模态指不同类型的可感知实体(如视觉、听觉、触觉和嗅觉);媒介涉及信息载体(如纸张或光盘)、物理设备(如屏幕、扬声器、麦克风和打印机)以及信息类型(如图形、文本和视频);编码则是特定的信息编码方式(如图像语言)。
多媒体/多模态系统能够分析和/或生成多媒体/多模态信息,或支持对多种媒体数字资源的访问。多模态输入分析从单一模态的低级别传感开始,将传感数据转换为更高级别的抽象表示格式,此过程称为模态集成或模态融合。多媒体生成包括信息选择与组织、媒体分配和特定内容的媒体编码,生成的媒体对象需协同配合,这一过程称为媒体协调或媒体裂变。根据媒体/模态的使用方式,可分为互补或补充使用,以及顺序或同时使用。多媒体数据访问可通过文档分类与分析、信息浓缩与聚合以及合适的多模态用户界面来实现。
2. 多模态/多媒体输入解释
基于人机交流的多模态特性,众多研究者探索了多模态和输入设备在人机通信中的应用。早期系统专注于多模态话语的语义分析,如“Put - that - there”系统结合语音和3D指向手势分析图形显示上的对象。
超级会员免费看
订阅专栏 解锁全文
36

被折叠的 条评论
为什么被折叠?



