语音技术与统一消息的深度剖析
一、文本转语音(TTS)技术概述
1.1 TTS 基本原理
语音识别系统基于语音的音素表示,而非单词本身。人们可借助文本转语音(TTS)引擎,将单词输入并添加到自动语音识别(ASR)系统的词汇库中。TTS 程序并非输出声音,而是输出文本文件,该文件是单词的音素表示,可被导入语音识别引擎的词汇库,从而为语音识别模块创建单词库。
1.2 不同公司的 TTS 市场侧重
不同的 TTS 公司专注于不同的市场领域。部分公司致力于开发便携式设备,如有声词典;而 Lernout & Hauspie 则致力于通过单一架构实现多语言语音输出。
1.3 选择 TTS 产品的考量因素
选择 TTS 产品比选择语音识别产品更具主观性。一个好的 TTS 产品需要在可懂度和自然度两方面表现出色。
- 可懂度测试 :向 TTS 系统发送未听过的文本,检查是否能理解;发送各种数值数据,如时间、地址、金额等,测试其规范化发音的能力。同时,发送与目标应用输入相似的信息进行测试。
- 自然度评估 :自然度较难标准化,可让未习惯计算机语音“口音”的新听众进行测试,使用与应用输入类似的陌生文本。一般来说,处理大量文本(如电子邮件)时,更应注重自然度;处理小语音片段(如电话号码或地址)时,可懂度更为重要。
- 其他因素 :还需考虑 TTS 运行的平台、支持的语言以及特定应用领域(如电子邮件)可能可用的预处理器类型。
超级会员免费看
订阅专栏 解锁全文
37

被折叠的 条评论
为什么被折叠?



