开源语音命令式人机交互系统研究
在当今科技发展的浪潮中,语音交互技术正逐渐成为人机交互的重要方式。为了找到更适合离线使用且高效准确的语音识别平台,我们对多个开源语音识别平台进行了深入研究。
1. 语音识别平台介绍
- CMU PocketSphinx :它基于CMUSphinx,是一个与说话者无关的连续语音识别系统,专为嵌入式系统、移动设备或个人计算机设计,具有轻量级和高效的特点。其优化后运行速度比CMUSphinx快8倍,采用隐藏马尔可夫声学模型(HMMs)和n - gram统计语言模型,还融入了定点算术和高效的GMM计算算法。在许多实际应用中都有广泛使用,如智能办公环境、医疗语音转文字转录、人机交互等。并且有不少改进方案,如Gao等人提出的SVM模型与PocketSphinx结合,在转录准确性上达到了82%;Pant等人基于PocketSphinx提出的离线语音动作混合语言(英语和中文)识别系统,将单词错误率从32%降低到了15%。
- VOSK :这是一个完全离线且无需数据的开源语音识别工具集,支持17种语言和方言,允许快速重新配置词汇以提高准确性。其API支持多种语言,平台为每种语言提供模板,模型大小约为50MB,也有更大的服务器供用户选择。模板包含说话者识别、流式API和可定制词汇等功能,还能让用户相互交流以获取帮助和更新。VOSK的独特之处在于它与Kaldi协作,Kaldi是一个基于C++的开源语音识别程序,使用深度神经网络(DNNs),分为三个代码库(nnet1、nnet2和nnet3),不同的配置具有不同的特点和优势。
- DeepSpeec
超级会员免费看
订阅专栏 解锁全文
1079

被折叠的 条评论
为什么被折叠?



