语音论文阅读(Conformer:基于卷积增强的Transformer语音识别模型)

提出了一种新的语音识别模型Conformer,该模型结合了Transformer和CNN的优点,有效捕获长序列依赖和局部特征。Conformer在LibriSpeech数据集上取得了优秀的性能。

论文:

        Conformer: Convolution-augmented Transformer for Speech Recognition

摘要:

       讲了基于CNN和Transformer的语音识别模型表现比以RNN为基础的模型好,Transformer模型擅长捕获基于内容的全局交互,而CNN则有效地利用了局部特征。

 本文工作:我们通过研究如何结合卷积神经网络和Transformer到一个模型,以参数有效的方式对音频序列的局部和全局相依性进行建模,从而实现了两个方面的最佳。

名为卷积增强的transformer模型即conformer。总结: Transformer在提取长序列依赖的时候更有效,而卷积则是擅长提取局部特征。此论文的工作是将两者结合起来。

 

引言:

       介绍了基于Transformer模型(善于捕捉长序列依赖)和CNN(局部信息,边缘以及形状)的优势,以及它们的缺陷Transformer(提取细粒度的局部特征图案的能力较弱)CNN

(局部连接的限制是需要更多地层或者参数量才能去捕捉全局信息)介绍了卷积增强attention[1],[2],attention增强卷积[3],在这项工作中,我们研究如何在ASR模型中有机地结合自我注意。我们假设全局和局部的相互作用对于参数的有效性都是重要的。

 

模型:

 Conformer Encoder的总体架构如上,其中conformer block是由Feedforward module,Multi-head self attention Module, Convolution Module三个Module组成的,其中每个Module上都用了残差

 

Convolution Module:对于Convolution Module来说,使用了pre-norm残差,point-wise卷积和线性门单元(Gated Linear Unit)。如下图所示:

 Conformer Block:像一个三明治

 

 Feed forward module:

使用了Swish Activation以及Linear Layer

 实验

  • 数据集:LibriSPeech  970 hours以及额外的800M的词组合的语言模型
  • 80Fbank,25ms window, 10ms stride
  • SpecAugment[3][4] mask parameter(F=27) time mask ps=0.05
  • Decoder使用单层的LSTM,
  • 对于正则化,在每个残差单元使用dropout[6],P_{drop}=0.1,使用Adm优化器,\beta _{1}=0.9,\beta_{2}=0.98,\epsilon =10^{-9},应用学习率策略 10k warmup step,peak learning rate0.05/sqrt(d) d为conformer encoder中 模型维度

结果

 

 不同attention head对模型的影响

 不同卷积核大小的影响

 

 

参考文献

  1. B. Yang, L. Wang, D. Wong, L. S. Chao, and Z. Tu, “Convolutional self-attention networks,”arXiv preprint arXiv:1904.03107,2019.
  2. A. W. Yu, D. Dohan, M.-T. Luong, R. Zhao, K. Chen, M. Norouzi,and Q. V. Le, “Qanet:Combining local convolution with global self-attention for reading comprehension,”arXiv preprintarXiv:1804.09541, 2018.
  3. . Bello, B. Zoph, A. Vaswani, J. Shlens, and Q. V. Le, “Attention augmented convolutional networks,” in Proceedings of the IEEE International Conference on Computer Vision, 2019, pp. 3286–3295.
  4. D. S. Park, W. Chan, Y. Zhang, C.-C. Chiu, B. Zoph, E. D.Cubuk, and Q. V. Le, “Specaugment: A simple data augmentation method for automatic speech recognition,”arXiv preprintarXiv:1904.08779, 2019.
  5. D. S. Park, Y. Zhang, C.-C. Chiu, Y. Chen, B. Li, W. Chan, Q. V.Le, and Y. Wu, “Specaugment on large scale datasets,”arXivpreprint arXiv:1912.05533, 2019
  6. N. Srivastava, G. Hinton, A. Krizhevsky, I. Sutskever, andR. Salakhutdinov, “Dropout: A simple way to prevent neural networks from overfitting,”Journal of Machine Learning Research,vol. 15, no. 56, pp. 1929–1958, 2014.

 

### 改进 EEG Conformer 模型的性能或架构 #### 1. 增强特征提取能力 通过引入更复杂的卷积结构,可以进一步提升模型的空间和时间特征提取能力。例如,可以在现有卷积层的基础上增加多尺度卷积操作或多分支卷积网络[^1]。这种设计允许模型在同一层次上捕获不同粒度的信息,从而提高对复杂模式的学习效果。 另一种方法是利用可分离卷积(Depthwise Separable Convolution),它不仅能够减少计算量,还能保持较高的特征表达能力[^2]。这种方法特别适合于资源受限的应用场景。 ```python import torch.nn as nn class MultiScaleConv(nn.Module): def __init__(self, in_channels=64, out_channels=64): super(MultiScaleConv, self).__init__() self.conv_3x3 = nn.Conv2d(in_channels, out_channels//3, kernel_size=(3, 3), padding='same') self.conv_5x5 = nn.Conv2d(in_channels, out_channels//3, kernel_size=(5, 5), padding='same') self.conv_7x7 = nn.Conv2d(in_channels, out_channels//3, kernel_size=(7, 7), padding='same') def forward(self, x): conv_3x3_out = self.conv_3x3(x) conv_5x5_out = self.conv_5x5(x) conv_7x7_out = self.conv_7x7(x) return torch.cat([conv_3x3_out, conv_5x5_out, conv_7x7_out], dim=1) ``` #### 2. 提升注意力机制的效果 当前的 Transformer 结构主要依赖自注意力机制来捕捉全局上下文信息。然而,标准的自注意力可能无法充分考虑局部时空关联性。因此,可以通过引入相对位置编码或者动态位置偏移技术来增强其建模能力[^3]。此外,还可以尝试稀疏化注意力矩阵以降低内存消耗并加速推理过程。 #### 3. 融合多种数据源 除了原始脑电信号外,还可以整合其他类型的生物医学测量值作为辅助输入,比如眼动追踪记录、心率变异性指标等。这些额外维度的数据有助于提供更加全面的行为状态描述,并最终改善预测精度[^1]。 #### 4. 可视化与解释性的优化 为了更好地理解模型内部工作原理以及验证假设的有效性,应该加强可视化工具开发力度。具体来说,可以绘制热力图展示哪些区域被赋予较高权重;也可以生成逐帧动画演示决策演变路径。 --- 问题
评论 7
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值