简介
使用唇部图像、音频进行音视融合语音识别任务。其中图像使用了3D卷积提取的特征,语音使用了语谱图。使用了相同的transformer encoder,decoder方面比较了seq2seq和CTC两种方案,结果显示在无噪音情况下seq2seq表现更佳,有噪音时CTC表现更佳。使用额外的语言模型也有助于提升WER
论文的任务/贡献
(1)比较了使用Connectionist Temporal Classification(CTC)损失和使用序列对序列(seq2seq)损失的两种唇读模型。这两个模型都建立在transformer自注意力架构之上;
(2)研究唇读与语音识别在多大程度上是互补的,尤其是在音频信号有噪声的情况下
背景
CTC
该方法将声音序列输入神经网络并输出各个token的概率,随后送入HMM中用来解码,CTC是其变种,模型预测帧级标签并寻找帧级预测和输出序列之间的最优对齐。缺点:1.输出标签相互独立,需要语言模型做后处理;2.它假设输入和输出序列是单调的。
在语音识别任务中,由于每个人的语速不一致,如果训练时不进行对齐(对齐有时十分困难的),则模型难以收敛。给定训练集,语音序列X=[x1, x2, …, xT]和标签Y=[y1, y2, …,yU], X和Y的长度会变化且不相等,CTC主要解决该问题。对于一个给定的输入序列X,CTC给出所有可能的Y的输出分布,根据该分布给出某个输出的概率。
损失函数:给定输入序列X,最大化Y的后验概率P(Y|X)
测试:Y∗=argmaxYP(Y∣X)Y^* = argmax_YP(Y|X)

该研究对比了在唇读和音频识别中使用CTC和seq2seq模型的性能。在无噪音条件下,seq2seq在语音识别任务中表现更优,而在有噪音时,CTC更为出色。实验还表明,结合额外的语言模型能提升识别准确率。论文采用了transformer架构,并提出了课程训练策略加速seq2seq模型的收敛。
最低0.47元/天 解锁文章
327

被折叠的 条评论
为什么被折叠?



