50、开源语音命令式人机交互系统研究

开源语音命令式人机交互系统研究

在当今科技发展的浪潮中,语音交互技术正逐渐成为人机交互的重要方式。为了找到更适合离线使用且高效准确的语音识别平台,我们对多个开源语音识别平台进行了深入研究。

1. 语音识别平台介绍
  • CMU PocketSphinx :它基于CMUSphinx,是一个与说话者无关的连续语音识别系统,专为嵌入式系统、移动设备或个人计算机设计,具有轻量级和高效的特点。其优化后运行速度比CMUSphinx快8倍,采用隐藏马尔可夫声学模型(HMMs)和n - gram统计语言模型,还融入了定点算术和高效的GMM计算算法。在许多实际应用中都有广泛使用,如智能办公环境、医疗语音转文字转录、人机交互等。并且有不少改进方案,如Gao等人提出的SVM模型与PocketSphinx结合,在转录准确性上达到了82%;Pant等人基于PocketSphinx提出的离线语音动作混合语言(英语和中文)识别系统,将单词错误率从32%降低到了15%。
  • VOSK :这是一个完全离线且无需数据的开源语音识别工具集,支持17种语言和方言,允许快速重新配置词汇以提高准确性。其API支持多种语言,平台为每种语言提供模板,模型大小约为50MB,也有更大的服务器供用户选择。模板包含说话者识别、流式API和可定制词汇等功能,还能让用户相互交流以获取帮助和更新。VOSK的独特之处在于它与Kaldi协作,Kaldi是一个基于C++的开源语音识别程序,使用深度神经网络(DNNs),分为三个代码库(nnet1、nnet2和nnet3),不同的配置具有不同的特点和优势。
  • DeepSpeec
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值