题目
Improving Transformer-based End-to-End Speech Recognition with Connectionist Temporal Classification and Language Model Integration
链接
http://www.isca-speech.org/archive/Interspeech_2019/abstracts/1938.html
标签
Speech Recognition, Transformer, CTC, LM
Contributions
- 将CTC,LM与Transformer在decoding阶段融合,实现更好的识别表现
- 通过实验调查了融合效果在大数据集上的表现
- 在开源项目ESPnet上实现基于Transformer的ASR toolkit
亮点与启发
文章指出,Transformer应用于ASR主要有两个问题:
- 相比于 RNN-based ASR,收敛速度较慢。
- 不易与语言模型结合
而通过与CTC在解码阶段的结合,可以加速Transformer的收敛速度。
CTC can encourage monotonic alignment between the speech and transcription. Therefore, the attention at an early

本文探讨如何通过将Connectionist Temporal Classification (CTC)与Language Model (LM)集成到Transformer中,改进端到端语音识别系统的性能。研究发现,这种融合在解码阶段有助于Transformer模型的收敛,并在大规模数据集上取得更好识别效果。同时,实验结果显示,融合CTC和LM的模型相比未融合的模型表现提升。
最低0.47元/天 解锁文章
1476

被折叠的 条评论
为什么被折叠?



