ASR之Conformer

最新推荐文章于 2025-09-06 10:32:09 发布

原创最新推荐文章于 2025-09-06 10:32:09 发布 · 783 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#语音识别 #transformer

文章探讨了Conformer，一种结合了Transformer全局关联性和CNN局部特性在端到端语音识别中的模型。它包含ConformerBlock、不同模块设计、研究维度如MHSA-CNN结合方式、MacaronFFN和注意头数量，以及在LibriSpeech数据集上的实验结果。

原文链接：Conformer: Convolution-augmented Transformer for Speech Recognition

一、原理分析

由于Transformer注重全局相关性，而CNN注重局部相关性，则二者结合可能在端到端ASR中取得较以往的RNN更好的效果。

二、结构

Conformer Block = (1/2 * FNN + MHSA + Conv + 1/2 * FNN + LayerNorm) with Reisdual

三、与Transformer区别

1.不同的模块

a)SWISH + ReLU：使用激活函数 Swish(x) = x * torch.sigmoid(x)

b)CNN Block

c)Macaron FFN : 使用成对FNN 并乘以1/2权重，如Conformer Block图

d)Relative Pos.Emb 位置编码方法:

$PE(pos, 2i) = sin(pos / 10000 ^ {2i/dm})\\\ PE(pos, 2i+1) = cos(pos / 10000 ^ {2i/dm})$

其中pos为输入单位在输入中的位置，2i 代表该向量中的第 2i 个维度，dm为维度的总数。

2.结论

第二个与第三个模块最为重要

四、几个研究维度

1.MHSA与CNN结合方式

a)使用轻量级CNN

b)交换MHSA与CNN的顺序

c)将输入划分开再传入多个注意头中

2.Macaron FFN

使用双FFN和权重乘以1/2，哪个更重要？都重要！

3.注意头的数量

注意头数 * 维度数(dm) == 512，其中注意头数取16较为合适

4.卷积核大小

文章研究了3、7、17、32、65等大小的卷积核对结果的影响，kernel_size == 32 时效果最好

五、数据相关

1.数据集

LibriSpeech、testclean、testother

2.语音预处理

80-channel filterbanks、25ms window、10ms stride

3.频谱增强

with mask parameter (F = 27), and ten time masks with maximum time-mask ratio (pS = 0.05)，, where the maximum-size of the time mask is set to pS times the length of the utterance.

（这里暂时不太明白）

评论 1

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

查看更多评论

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。