验证了一个端到端语音识别系统,目前cer结果还不错。考虑怎么实际使用:
1)服务器端: 利用kaldi的流式处理方法(http
1. kaldi-gstreamer-server
GitHub地址是https://github.com/alumae/kaldi-gstreamer-server,里面有详细的安装步骤,步骤分为大的三步
1)安装编译kaldi、安装gstreamer、安装libjansson-dev
2)安装并编译gst-kaldi-nnet2-online,git clone https://github.com/alumae/gst-kaldi-nnet2-online.git
3)安装基于kaldinnet2onlinedecoder解码器的worker, git clone https://github.com/alumae/kaldi-gstreamer-server
2. master_server.py
3. woker.py
4. client.py
rnn 结构
代码:python3.6/site-packages/torch/nn/modules/rnn.py
里面有八个类:
| class | 描述 |
|---|---|
| class RNNBase(Module) | {tanh}(w_{ih} x_t + b_{ih} + w_{hh} h_{(t-1)} + b_{hh}) |
| class RNN(RNNBase) | Applies a multi-layer Elman RNN with :math:tanh or :math:ReLU non-linear |

本文介绍了一个端到端的语音识别系统,通过kaldi-gstreamer-server实现,详细步骤包括kaldi的流式处理、master_server、worker及client的设置。目前系统已达到良好的cer结果,探讨了实际应用的可能性,特别是rnn结构在解码器中的应用。
最低0.47元/天 解锁文章
941

被折叠的 条评论
为什么被折叠?



