Google语音研究:实现通用语音接口
1. 语音搜索
曾经,像《星际迷航》里柯克船长与电脑对话获取信息那样,用语音获取信息只存在于科幻作品中。随着具备网络功能的智能手机出现,信息获取成为日常生活中无处不在的一部分,用户的期望和对服务的需求也发生了显著变化,例如想要获取最新的信息(最近的停车位在哪?)或进行特定的通信操作(将我的Facebook状态更新为“寻找巧克力”)。
如今,用户对信息和服务的普遍可用性期望越来越高,希望能随时通过各种设备,如手机、汽车、手表、电视等获取网络信息和服务,这些设备已成为日常生活的一部分,帮助满足各种日常需求。
谷歌的目标是让语音访问无处不在,用户能自然地通过语音表达需求。要实现这一目标,需要满足两个方面:
- 可用性 :将语音输入或输出融入到所有合理的交互场景中。
- 性能 :语音交互流畅,不产生任何阻碍。
性能主要体现在两个核心方面:
- 核心识别质量 :能否准确转录听到的每一个单词。
- 延迟 :交互速度要快,这是实现无摩擦交互的重要因素。
为解决语音搜索中的各种技术挑战,谷歌采用大量训练数据构建准确模型,同时关注文本归一化、语料时效性、多模型应用的用户界面设计和错误处理等特定挑战。
2. 文本转语音
早期,谷歌在GOOG411等服务中使用第三方的文本转语音(TTS)系统。随着语音交互在谷歌的重要性日益增加,2010年谷歌收购了英国提供TTS的初创公司Phonetic A
超级会员免费看
订阅专栏 解锁全文
1849

被折叠的 条评论
为什么被折叠?



