基于Paraformer的非自回归端到端语音识别模型时间戳预测方法
1. 引言
端到端自动语音识别(E2E ASR)模型通常分为两类:时间同步模型(如CTC和RNN - Transducer)和令牌同步模型(如listen - attend - and - spell(LAS)和基于Transformer的AED模型)。这些模型在很多场景中展现出强大的竞争力,取代了传统的ASR模型。然而,由于这些模型在时间戳预测能力上存在固有缺陷,一些ASR系统不得不使用额外的传统ASR模型来预测识别结果的时间戳,这增加了计算开销和训练难度。
本文提出使用非自回归E2E ASR模型Paraformer在识别的同时实现时间戳预测。Paraformer采用了连续积分触发(CIF)机制作为预测器,CIF通过对帧级权重进行积分来预测输出令牌的数量,当累积权重超过触发阈值时,这些帧的编码器输出将被求和为一个声学嵌入步骤。基于CIF的输出,我们提出了缩放CIF训练策略和三种后处理方法来实现高质量的时间戳预测,并探索使用累积平均偏移(AAS)和说话人分割错误率(DER)指标来衡量时间戳预测系统。
2. 相关工作
时间同步模型和令牌同步模型以不同方式解决不等长序列预测问题。例如,Transducer通过前向和后向算法建立不等长令牌序列和时间序列之间的连接,但训练良好的CTC或Transducer模型倾向于预测具有尖锐峰值的后验概率,峰值位置不能反映令牌的真实时间。基于AED的E2E模型如Transformer在编码器和解码器之间进行交叉注意力计算,交叉注意力中的得分矩阵可视为对齐,但它是软的且非单调的,因此在原始基于AED的模型中进行时间戳预测较为困难。
CIF是一种
超级会员免费看
订阅专栏 解锁全文
4万+

被折叠的 条评论
为什么被折叠?



