语音处理工具包与谷歌语音研究发展综述
在语音处理领域,有多种不同类型的工具包,它们在语音识别、增强、深度学习等方面发挥着重要作用。同时,谷歌在语音研究方面也有着丰富的发展历程,推动了语音技术的进步。
语言模型工具包
语言模型工具包主要分为基于 n - gram 的工具包和神经网络语言模型工具包。
- 基于 n - gram 的工具包 :如 IRSTLM、KENLM、MITLM、SRILM 等。这些工具包的语言模型格式通常统一为 ARPA 格式或其变体,由于所有语音识别工具包都支持 ARPA 格式的语言模型,所以它们生成的语言模型基本可以应用于所有语音识别工具包。其中,SRILM 因其众多功能(包括大多数主要的 n - gram 平滑技术和 n - gram 剪枝)以及各种自动语音识别(ASR)应用示例(包括格重打分),常用于 ASR 实验。
- 神经网络语言模型工具包 :如 CSLM、CUED - RNNLM、RNNLM TOOLKIT、RWTHLM 等。这些工具包的模型结构因网络架构而异,模型格式也各不相同。例如,最著名的 RNNLM TOOLKIT 由 T. Mikolov 开发,支持循环神经网络架构;CUED - RNNLM 是 RNNLM TOOLKIT 的扩展,基于相同的 RNN 并支持基于 GPU 的并行计算;而 CSLM 和 RWTHLM 分别基于前馈神经网络和长短期记忆网络(LSTM),与 RNNLM 具有不同的模型结构。因此,与基于 n - gram 的语言模型相比,基于神经网络的语言模型工具包没有统一的模型格式,其模型难以与各种大词汇量连续语音识别(LVCSR)解码器轻松集成。不过,每
超级会员免费看
订阅专栏 解锁全文
1万+

被折叠的 条评论
为什么被折叠?



