用CTI实现与Web交谈

CTI技术与VoiceXML的发展推动了语音识别和TTS的进步,降低了对用户依赖。VoiceXML成为W3C标准,提供语音响应服务接口,使人们能通过语音访问Web内容。本文介绍了VoiceXML的基本模型、作用和一些厂商的产品,如IBM、朗讯、摩托罗拉和Nuance的解决方案。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

用CTI实现与Web交谈

世界上现在有十亿的电话终端,另外,有超过2亿的移动电话已经销售到世界上。而就人的自身习惯来看,通过言谈的交流,利用听和说是人们更愿意接受的交流和获取信息的方式。

移动通信技术与数据通信的结合,提供给人们随处接入网络的可能,但是只有WAP才是我们构建移动商务的唯一平台吗?CTI技术的发展给我们提供了一条新的途径。

CTI技术的进步

经过努力文本语音转换器(TTS,Text to Speech)已经取得了很大的进步,实现了自动的语言分析理解,并允许TTS的使用者增加更多的韵律、音调在讲话中,使TTS系统的发声更接近人声。

在自动语音识别系统(ASR)领域里,自动语音识别系统在从整个词的模仿匹配,向音素层次的识别系统方向发展。整个词的模仿匹配系统,或多或少要依赖讲话者,而且只有很少的词汇量。现在的做法是,自动语音识别系统的词汇表,由一个基于声音片断的字母表构成。要指出的是,这种词汇表是受不同语言限制的。基于这种方式,在一个宽广的声音行列里,讲话能被识别系统发现和挑拣出来,并加以识别。在识别一个词的时候,每一个音素将从系统的输入中挑拣出来,拼接组合后与已经有的音素和词语模板进行比较。而这样的模板能够非常快的被TTS产生出来,也就是说通过文字的输入,来产生需要的模板,并且非常经济的被存储起来。现在许多系统甚至能够支持识别模板的“热插拔",比如说将一个雇员的名字加入雇员识别系统的数据库,不用将整个系统停下来。

通过这些努力,音素的识别大大的减轻了ASR对讲话者的依赖性,并且使得它非常容易去建立大型的和容易修改的语音识别字典,从而满足不同应用市场的需求。在这一方面取得成功以后,今天的开发者正在加入更多的精密复杂的、智能的、高水平的语言学方面的处理到ASR系统中,同时在ASR中增加了对语言上下文环境的考虑。而通过鉴别输入的文法结构和前后关系,以及确定某些词(词窗)出现在谈话中特定位置的概率并制定相应的适用规则,将更加加强系统的精确性。

VoiceXML所取得的成就

5月23日,万维网协会(World Wide Web Consortium,W3C)接受了语音可扩展标记语言(Voice Extensible Markup Language)规范1.0版(VoiceXML 1.0)作为实例。

VoiceXML源自于AT&T、IBM、Lucent和Motorola多年的研究和开发。自从3月份VoiceXML 1.0 的发布,论坛成员已经扩展到150多家公司。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值