端到端语音识别技术解析与案例实践
1. 解码方法
1.1 重评分(Rescoring)
重评分采用两步法。第一步,从注意力解码器生成一组完整的假设;第二步,基于CTC和注意力概率对这些假设进行重新评分(使用前向算法获取CTC概率)。公式如下:
$\hat{C} = \arg\max_{h\in\hat{\Omega}}{\lambda\alpha_{CTC}(h,X)+(1 - \lambda)\alpha_{ATT}(h,X)}$
1.2 单遍解码(One - Pass Decoding)
单遍解码专注于在字符生成时计算部分假设的概率。可以通过在解码器中添加额外的语言建模项,将语言模型融入解码过程:
$\hat{C} = \arg\max_{C\in U^*}{\lambda\log P_{CTC}(C|X)+(1 - \lambda)\log P_{ATT}(C|X)+\gamma\log P_{LM}(C)}$
波束搜索中的得分可描述为:
$\alpha(h) = \lambda\alpha_{CTC}(h)+(1 - \lambda)\alpha_{ATT}(h)+\gamma\alpha_{LM}(h)$
其中,计算注意力和语言模型得分较为直接:
$\alpha_{ATT}(h) = \alpha_{ATT}(g)+\log P_{ATT}(c|g,X)$
$\alpha_{LM}(h) = \alpha_{LM}(g)+\log P_{LM}(c|g,X)$
这里$h = g;c$,$g$是已知假设,$c$是追加到序列中以生成$h$
超级会员免费看
订阅专栏 解锁全文
857

被折叠的 条评论
为什么被折叠?



