语音系统设计全面解析
1. 语音输出与质量评估
技术供应商可提供单一的男性或女性输出语音,还能提供生成个性化语音的工具,比如打造具有公司特色的语音。对于这些模块,应用开发者需明确是否需要人工干预来获得满意的语音输出。声学模块可能基于非分段方法,但相关要求依然存在。
在语音合成评估方面,有多种衡量指标,技术供应商和应用开发者都应关注。这些指标包括自然度、可接受度、清晰度、聆听努力程度、愉悦度、理解度等。评估应针对具体应用,或者至少说明评估方式。例如,一个文本转语音(TTS)系统可能对1000个最常用的单词或句子适用,但对正在开发的应用要合成的内容可能并不适用。同时,还需衡量音素、单词和句子的清晰度,因为不同应用对理解句子或关键词(如姓名、日期、数字)的要求不同,甚至有些情况不依赖对话上下文。
2. 多语言支持
应用开发者需要了解哪些模块依赖语言,以及有哪些可用语言。部分技术供应商提供“开发环境”以方便添加新语言,但这些工具可能针对特定语言进行了调整,需要特定技能,添加新语言也可能耗时较长。
3. 交互式语音系统
交互式语音系统包含一个对话模块,负责管理用户与系统之间的交互。一般情况下,交互涉及不同的输出媒体和输入方式。对于电话应用,输入方式包括语音输入、双音多频(DTMF)和/或脉冲检测。
- 菜单驱动系统 :交互大多采用菜单驱动的序列,通过图或有限状态自动机模型来实现。自动机状态之间的转换由“单一”命令或动作组成,可能是一次单词/句子识别,也可能是其他特定应用动作,如延迟或噪音水平检测。有些系统提供更复杂的菜单驱动对话,将多个动作组合以快速推进交互。如果技术供应商采
超级会员免费看
订阅专栏 解锁全文
1345

被折叠的 条评论
为什么被折叠?



