口语对话系统:技术解析与发展趋势
1. 引言
口语对话系统需要整合自然语言理解、自然语言生成、语音识别和语音合成等多方面的研究成果。它不仅涉及解决这些领域的问题,还需要一个核心处理组件——对话管理器,来管理对话的进程和发展。同时,在处理自然交互式对话时,会出现一些在单语篇文本处理中不会遇到的特殊语言处理问题。
本文聚焦于主要通过语音进行交互、实现多轮对话的系统,不涉及以下几类系统:
- 基于文本的对话系统 :早期自然语言处理致力于开发数据库的自然语言接口,采用文本输入输出,但如今其功能大多被图形用户界面取代。而且,不能简单地在基于文本的对话系统两端添加语音处理模块,而需要更集成化的开发方式。
- 聊天机器人和无意义对话代理 :以 ELIZA 为代表,这类系统通常使用模式匹配和启发式方法与用户进行相对无限制的对话,但缺乏真正的理解能力。由于在无限制语境中处理语音识别会导致性能严重下降,所以它们几乎都是基于文本的。
- 问答系统 :这类应用通常使用大规模文本资源来定位问题的答案,目前可被视为“单轮”基于文本的对话系统。不过,其研究重点在于确定最合适的答案,与本文关注的问题不同。
- 多模态对话系统 :这类系统集成了多种模态,如语音、触摸或手势等。虽然口语对话系统中的问题在这些系统中同样存在,但多模态带来了额外的挑战,超出了本文的讨论范围。
2. 口语对话系统的架构
口语对话系统的基本架构通常包含以下处理步骤,如下图所示:
超级会员免费看
订阅专栏 解锁全文
441

被折叠的 条评论
为什么被折叠?



