43、Google语音研究:实现通用语音接口

Google语音研究:实现通用语音接口

1. 语音搜索

曾经,像《星际迷航》里柯克船长与电脑对话获取信息那样,用语音获取信息只存在于科幻作品中。随着具备网络功能的智能手机出现,信息获取成为日常生活中无处不在的一部分,用户的期望和对服务的需求也发生了显著变化,例如想要获取最新的信息(最近的停车位在哪?)或进行特定的通信操作(将我的Facebook状态更新为“寻找巧克力”)。

如今,用户对信息和服务的普遍可用性期望越来越高,希望能随时通过各种设备,如手机、汽车、手表、电视等获取网络信息和服务,这些设备已成为日常生活的一部分,帮助满足各种日常需求。

谷歌的目标是让语音访问无处不在,用户能自然地通过语音表达需求。要实现这一目标,需要满足两个方面:
- 可用性 :将语音输入或输出融入到所有合理的交互场景中。
- 性能 :语音交互流畅,不产生任何阻碍。

性能主要体现在两个核心方面:
- 核心识别质量 :能否准确转录听到的每一个单词。
- 延迟 :交互速度要快,这是实现无摩擦交互的重要因素。

为解决语音搜索中的各种技术挑战,谷歌采用大量训练数据构建准确模型,同时关注文本归一化、语料时效性、多模型应用的用户界面设计和错误处理等特定挑战。

2. 文本转语音

早期,谷歌在GOOG411等服务中使用第三方的文本转语音(TTS)系统。随着语音交互在谷歌的重要性日益增加,2010年谷歌收购了英国提供TTS的初创公司Phonetic A

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值