稳健语音处理工具包及谷歌语音技术发展
在语音处理领域,有众多工具包和技术推动着该领域的发展。下面将为大家介绍各类语音处理工具包以及谷歌在语音研究方面的进展。
语言模型工具包
语言模型工具包主要分为基于n - gram的工具包和神经网络语言模型工具包。
- 基于n - gram的工具包 :包括IRSTLM、KENLM、MITLM、SRILM等。使用这类工具包时,语言模型格式统一为ARPA格式或其变体。由于所有语音识别工具包都支持ARPA格式的语言模型,因此这些工具包生成的语言模型基本可应用于所有语音识别工具包。其中,SRILM因其具备多种功能(包括大多数主要的n - gram平滑技术和n - gram剪枝)以及各种自动语音识别(ASR)应用示例(包括格重打分),常用于ASR实验。
- 神经网络语言模型工具包 :如CSLM、CUED - RNNLM、RNNLM TOOLKIT、RWTHLM等。这些工具包的模型结构因网络架构而异,且模型格式通常各不相同。例如,RNNLM TOOLKIT由T. Mikolov开发,支持循环神经网络架构;CUED - RNNLM是RNNLM TOOLKIT的扩展,同样基于RNN,且支持基于GPU的并行计算;而CSLM基于前馈神经网络,RWTHLM基于LSTM,它们与RNNLM的模型结构不同。因此,与基于n - gram的语言模型相比,基于神经网络的语言模型工具包没有统一的模型格式,其模型难以与各种大词汇连续语音识别(LVCSR)解码器轻松集成。不过,每个工具包都为语音识别工具包中的主要格格式提供了格重打分脚本。此外,一些通用的深度学习工具包(如CHAINER、CNTK、THEANO
超级会员免费看
订阅专栏 解锁全文
18

被折叠的 条评论
为什么被折叠?



