52、端到端语音识别中的序列到序列及相关技术解析

端到端语音识别中的序列到序列及相关技术解析

1. Seq-to-Seq模型基础

在语音识别领域,基于注意力机制的方法被广泛应用,它能够直接对输出序列的概率进行建模:
[P(Y|X) = \prod_{u=1}^{U} P(y_u|y_{1:u - 1}, X)]

该概率可以通过基于注意力的目标函数来估计,具体如下:
[h_t = Encoder(X)]
[a_{ut} =
\begin{bmatrix}
ContentAttention(q_{u - 1}, h_t) \
LocationAttention({a_{u - 1}} {t = 1}^{T}, q {u - 1}, h_t)
\end{bmatrix}]
[c_u = \sum_{t = 1}^{T} a_{ut}h_t]
[P(y_u|y_{1:u - 1}, X) = Decoder(c_u, q_{u - 1}, y_{u - 1})]

其中,编码器神经网络会生成声学输入的隐藏表示 (h_t),解码器则根据编码后的序列生成转录输出。注意力权重 (a_{ut}) 用于为解码器计算上下文向量 (c_u),解码器隐藏状态 (q_u) 为解码器的下一次预测提供累积上下文。这里主要考虑两种注意力类型:基于内容的注意力和位置感知注意力。

1.1 基于内容的注意力

基于内容的注意力会学习一个权重向量 (g) 以及两个线性层 (W) 和 (V)(无偏置参数),用于对先前的预测和编码器隐藏状态 (h_t) 进行加权。具体表示为:
[e_{ut} = g^{\top}

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值