端到端语音识别中的序列到序列及相关技术解析
1. Seq-to-Seq模型基础
在语音识别领域,基于注意力机制的方法被广泛应用,它能够直接对输出序列的概率进行建模:
[P(Y|X) = \prod_{u=1}^{U} P(y_u|y_{1:u - 1}, X)]
该概率可以通过基于注意力的目标函数来估计,具体如下:
[h_t = Encoder(X)]
[a_{ut} =
\begin{bmatrix}
ContentAttention(q_{u - 1}, h_t) \
LocationAttention({a_{u - 1}} {t = 1}^{T}, q {u - 1}, h_t)
\end{bmatrix}]
[c_u = \sum_{t = 1}^{T} a_{ut}h_t]
[P(y_u|y_{1:u - 1}, X) = Decoder(c_u, q_{u - 1}, y_{u - 1})]
其中,编码器神经网络会生成声学输入的隐藏表示 (h_t),解码器则根据编码后的序列生成转录输出。注意力权重 (a_{ut}) 用于为解码器计算上下文向量 (c_u),解码器隐藏状态 (q_u) 为解码器的下一次预测提供累积上下文。这里主要考虑两种注意力类型:基于内容的注意力和位置感知注意力。
1.1 基于内容的注意力
基于内容的注意力会学习一个权重向量 (g) 以及两个线性层 (W) 和 (V)(无偏置参数),用于对先前的预测和编码器隐藏状态 (h_t) 进行加权。具体表示为:
[e_{ut} = g^{\top}
超级会员免费看
订阅专栏 解锁全文
21

被折叠的 条评论
为什么被折叠?



