语音论文阅读(Conformer：基于卷积增强的Transformer语音识别模型)

最新推荐文章于 2026-01-05 03:09:40 发布

原创最新推荐文章于 2026-01-05 03:09:40 发布 · 1.9w 阅读

CC 4.0 BY-SA版权

文章标签：

33 篇文章

订阅专栏

10 篇文章

订阅专栏

提出了一种新的语音识别模型Conformer，该模型结合了Transformer和CNN的优点，有效捕获长序列依赖和局部特征。Conformer在LibriSpeech数据集上取得了优秀的性能。

Conformer: Convolution-augmented Transformer for Speech Recognition

讲了基于CNN和Transformer的语音识别模型表现比以RNN为基础的模型好，Transformer模型擅长捕获基于内容的全局交互，而CNN则有效地利用了局部特征。

本文工作：我们通过研究如何结合卷积神经网络和Transformer到一个模型，以参数有效的方式对音频序列的局部和全局相依性进行建模，从而实现了两个方面的最佳。

名为卷积增强的transformer模型即conformer。总结: Transformer在提取长序列依赖的时候更有效，而卷积则是擅长提取局部特征。此论文的工作是将两者结合起来。

介绍了基于Transformer模型(善于捕捉长序列依赖)和CNN(局部信息，边缘以及形状)的优势，以及它们的缺陷Transformer（提取细粒度的局部特征图案的能力较弱）CNN

(局部连接的限制是需要更多地层或者参数量才能去捕捉全局信息）介绍了卷积增强attention[1],[2],attention增强卷积[3],在这项工作中，我们研究如何在ASR模型中有机地结合自我注意。我们假设全局和局部的相互作用对于参数的有效性都是重要的。

Conformer Encoder的总体架构如上，其中conformer block是由Feedforward module，Multi-head self attention Module, Convolution Module三个Module组成的，其中每个Module上都用了残差

Convolution Module:对于Convolution Module来说，使用了pre-norm残差，point-wise卷积和线性门单元(Gated Linear Unit)。如下图所示:

Conformer Block：像一个三明治

Feed forward module:

使用了Swish Activation以及Linear Layer

数据集：LibriSPeech 970 hours以及额外的800M的词组合的语言模型
80Fbank,25ms window, 10ms stride
SpecAugment[3][4] mask parameter(F=27) time mask ps=0.05
Decoder使用单层的LSTM,
对于正则化，在每个残差单元使用dropout[6], $P_{drop}=0.1$ ,使用Adm优化器， $\beta _{1}=0.9,\beta_{2}=0.98,\epsilon =10^{-9}$ ,应用学习率策略 10k warmup step,peak learning rate $0.05/sqrt(d)$ d为conformer encoder中模型维度

不同attention head对模型的影响

不同卷积核大小的影响

B. Yang, L. Wang, D. Wong, L. S. Chao, and Z. Tu, “Convolutional self-attention networks,”arXiv preprint arXiv:1904.03107,2019.
A. W. Yu, D. Dohan, M.-T. Luong, R. Zhao, K. Chen, M. Norouzi,and Q. V. Le, “Qanet:Combining local convolution with global self-attention for reading comprehension,”arXiv preprintarXiv:1804.09541, 2018.
. Bello, B. Zoph, A. Vaswani, J. Shlens, and Q. V. Le, “Attention augmented convolutional networks,” in Proceedings of the IEEE International Conference on Computer Vision, 2019, pp. 3286–3295.
D. S. Park, W. Chan, Y. Zhang, C.-C. Chiu, B. Zoph, E. D.Cubuk, and Q. V. Le, “Specaugment: A simple data augmentation method for automatic speech recognition,”arXiv preprintarXiv:1904.08779, 2019.
D. S. Park, Y. Zhang, C.-C. Chiu, Y. Chen, B. Li, W. Chan, Q. V.Le, and Y. Wu, “Specaugment on large scale datasets,”arXivpreprint arXiv:1912.05533, 2019
N. Srivastava, G. Hinton, A. Krizhevsky, I. Sutskever, andR. Salakhutdinov, “Dropout: A simple way to prevent neural networks from overfitting,”Journal of Machine Learning Research,vol. 15, no. 56, pp. 1929–1958, 2014.