53、端到端语音识别技术解析与案例实践

端到端语音识别技术解析与案例实践

1. 解码方法
1.1 重评分(Rescoring)

重评分采用两步法。第一步,从注意力解码器生成一组完整的假设;第二步,基于CTC和注意力概率对这些假设进行重新评分(使用前向算法获取CTC概率)。公式如下:
$\hat{C} = \arg\max_{h\in\hat{\Omega}}{\lambda\alpha_{CTC}(h,X)+(1 - \lambda)\alpha_{ATT}(h,X)}$

1.2 单遍解码(One - Pass Decoding)

单遍解码专注于在字符生成时计算部分假设的概率。可以通过在解码器中添加额外的语言建模项,将语言模型融入解码过程:
$\hat{C} = \arg\max_{C\in U^*}{\lambda\log P_{CTC}(C|X)+(1 - \lambda)\log P_{ATT}(C|X)+\gamma\log P_{LM}(C)}$

波束搜索中的得分可描述为:
$\alpha(h) = \lambda\alpha_{CTC}(h)+(1 - \lambda)\alpha_{ATT}(h)+\gamma\alpha_{LM}(h)$

其中,计算注意力和语言模型得分较为直接:
$\alpha_{ATT}(h) = \alpha_{ATT}(g)+\log P_{ATT}(c|g,X)$
$\alpha_{LM}(h) = \alpha_{LM}(g)+\log P_{LM}(c|g,X)$

这里$h = g;c$,$g$是已知假设,$c$是追加到序列中以生成$h$

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值