探索会理解语音的计算机世界
1. 语音技术的梦想与挑战
语音技术的终极目标,是创造出能够流畅识别和理解人类语音,并做出恰当回应的机器。然而,尽管投入了数百万小时的研究,会说话的机器技术仍处于起步阶段。像电影《2001:太空漫游》中的 HAL,以及《星球大战》系列里的 R2D2 和 C - 3PO 那样具备智能和能力的机器,目前乃至可预见的未来都难以实现。
为了让语音研究在构建智能对话机器方面取得切实、稳步的进展,我们需要回答一个关键问题:人类语言和语音中是否存在某些根本性的东西,是我们尚未充分理解,以至于无法在机器中复制的?这就要求我们审视过去七十年来构建智能机器所走过的道路,以及在语音识别、语音理解、语音合成和对话系统等方面所取得的进展。
1.1 智能机器解决方案之问
是否必须要有一个单一的解决方案,才能构建出能够识别和理解语音,并对几乎任何查询做出恰当回应的智能机器呢?显然,人机交互能带来巨大的回报,这足以证明投入精力构建此类机器是值得的。这些回报能让我们更快速、更聪明、更出色地完成工作(具体取决于所处理的任务),在某些情况下,还能减少等待人工客服回答问题或解决问题时的挫败感。或许我们可以沿着当前的道路继续前进,为不同的应用场景,如客户服务、帮助台、服务、银行和投资等,设计专门的语音交互系统。这些系统目前的持续成功,也证明了为其他应用设计类似系统的努力是合理的。
1.2 期望与现实的差距
然而,如今我们对智能机器的期望与这些机器实际能做到的之间存在着巨大的差距。要弥合商业世界中现有工作系统与能够处理任何感兴趣场景的通用语音理解系统之间的差距并非易事。那么,造成这种差距的原因是什么?有什么办法可以显著缩小这个差
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



