Google语音研究:实现通用语音接口
1. 语音搜索
语音获取信息曾是科幻场景,如今随着智能手机普及,信息获取成为日常生活一部分,用户期望也随之转变。他们希望随时获取最新信息或进行通信,如询问最近停车位、更新社交状态等。语音技术对满足这种随时随地的信息获取需求至关重要。
Google的目标是让语音访问无处不在,这需要满足两个条件:
- 可用性 :融入所有语音输入或输出有意义的交互中。
- 性能 :交互流畅无阻碍。
性能主要体现在两个方面:
- 核心识别质量 :准确转录听到的每个单词。
- 低延迟 :交互速度要快。
在语音搜索中,还面临着文本归一化、语料时效性、多模型应用的用户界面设计和错误处理等挑战。
2. 文本转语音
早期Google使用第三方文本转语音(TTS)系统,2010年收购Phonetic Arts后开始自主开发。目前已支持30多种语言,应用于Google Maps、Google Translate和Android等服务。
典型的TTS系统由文本分析和语音合成模块组成:
- 文本分析模块 :包含自然语言处理子模块,如句子分割、单词分割、词性标注、文本归一化和 grapheme - to - phoneme(G2P)预测。Google开发了灵活的文本归一化系统“Kestrel”,其核心是将文本归一化语法编译为WFST库,该工具已开源。
-
超级会员免费看
订阅专栏 解锁全文
1909

被折叠的 条评论
为什么被折叠?



