题目
ContextNet: Improving Convolutional Neural Networks for Automatic Speech
Recognition with Global Context
链接
https://arxiv.org/pdf/2005.03191.pdf
代码实现:
https://github.com/iankur/ContextNet
标签
Speech Recognition, CNN
Contributions
- 使用了基于global context的CNN作为ASR的模型
- 持续的负采样和模型缩放来减小模型的参数的同时保证WER维持较小值
亮点与启发
文章指出:
- 一般CNN由于卷积核大小的限制无法获取到长距离的依赖,导致表现不如RNN-based模型
- 文中使用的SE结构,将一个序列的特征向量“挤压”(squeeze)到一个global context vector,然后将这个上下文向量作用与每个原始的特征向量(两者通过相乘结合)
- 提出负采样方案:8次不间断减小输入序列的长度,减小计算耗时的同时保证识别的准确率
文章重点
SE如何构造计算
公式:

ContextNet是一种改进的卷积神经网络,用于提高自动语音识别(ASR)的性能,通过引入全局上下文。文章指出,传统CNN受限于卷积核大小,难以捕获长距离依赖,而ContextNet通过SE结构解决了这一问题。SE结构通过全局池化和权重注入增强特征向量,增加对长距离上下文的感知。此外,文章提出了一种负采样方案,减小模型参数并保持高识别准确率。实验结果显示ContextNet在ASR任务上的优越性。
最低0.47元/天 解锁文章
4367

被折叠的 条评论
为什么被折叠?



