人机对话系统
人机对话系统又称口语对话系统(spoken dialogue system)。一个典型的人机对话系统主要包括如下6个技术模块:①语音识别器(speech recognizer);②语言解析器(language parser);③问题求解(problem resolving)模块;④语言生成器(language generator);⑤对话管理(dialogue management)模块;⑥语音合成器(speech synthesizer)。
语音识别模块实现用户输入语音到文字的识别转换,识别结果一般以得分最高的前n(n≥1)个句子或词格(word lattice)形式输出。语言解析模块对语音识别结果进行分析,获得给定输入的内部表示。语言生成模块根据解析模块得到的内部表示,在对话管理机制的作用下生成自然语言句子。语音合成模块将生成模块生成的句子转换成语音输出。问题求解模块依据语言解析器的分析结果进行问题的推理或查询,求解用户问题的答案。对话管理模块是系统的核心,一个理想的对话管理器应该能够基于对话历史调度人机交互机制,辅助语言解析器对语音识别结果进行正确的理解,为问题求解提供帮助,并指导语言的生成过程。可以说,对话管理机制是人机对话系统的中心枢纽。
1.口语解析器
对于一个基于中间表示的口语翻译系统和人机对话系统来说,口语解析器的作用可以简要地用图16-1表示。语音识别模块首先将用户语音转换成文字串,口语解析模块对其分析、理解,并将其转换成中间表示格式。在口语翻译系统中,语言生成器基于中间表示生成目标语言句子,而在人机对话系统中,语言生成器在对话管理模块的指导和控制下生成系统响应的句子。口语翻译系统中的语音合成器生成目标语言的语音,而对话系统中的语音合成器生成用户语言的语音。

接下来介绍两种面向中间表示格式的汉语口语解析方法,一种是规则方法和HMM统计方法相结合的解析方法;另一种是基于语义分类树的解析方法。(中间表示采用C-STAR定义的IF格式)
1.1中间表示格式
IF格式的理论基础是对话行为(dialogue acts, DAs)理论,其基本观点认为,语言不只用来陈述事实,而且还附载着说话者的意图。
一个IF表达式通常由说话者(speaker)、话语行为(speech act)、概念序列(concept)和参数-属性值对的列表4个部分组成:
Speaker:Speech-Act[+Concept]*[(Argument=Value[,Argument=Value]*)]
其中,概念序列与话语行为合称为领域行为(domain action)。
星号“*”表示它所限定的左边成分可以重复出现多次。
(1)说话人标志(Speaker):表示说话人的身份。在IF中只有两种说话人身份,一种是顾客(client),用“c”表示,另一种是代理(agent),用“a”表示。
(2)语句意图或称话语行为或言语行为(Speech-Act):表示“询问信息、动作请求、返回信息”等各种话语

本文介绍了人机对话系统的关键技术,包括口语解析器、基于MDP的对话行为识别和中间表示的口语生成方法。口语解析涉及规则、HMM统计方法和语义决策树,而对话行为识别结合了MDPs和SVM。基于中间表示的口语生成方法通过微观规划器和表层生成器转换IF表达式为自然语言句子。
最低0.47元/天 解锁文章

2191

被折叠的 条评论
为什么被折叠?



