52、端到端语音识别中的序列到序列及相关技术解析

原创于 2025-11-14 14:12:04 发布 · 16 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#端到端语音识别 #序列到序列模型 #注意力机制

深度学习赋能NLP与语音专栏收录该内容

57 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

端到端语音识别中的序列到序列及相关技术解析

1. Seq-to-Seq模型基础

在语音识别领域，基于注意力机制的方法被广泛应用，它能够直接对输出序列的概率进行建模：
[P(Y|X) = \prod_{u=1}^{U} P(y_u|y_{1:u - 1}, X)]

该概率可以通过基于注意力的目标函数来估计，具体如下：
[h_t = Encoder(X)]
[a_{ut} =
\begin{bmatrix}
ContentAttention(q_{u - 1}, h_t) \
LocationAttention({a_{u - 1}} {t = 1}^{T}, q {u - 1}, h_t)
\end{bmatrix}]
[c_u = \sum_{t = 1}^{T} a_{ut}h_t]
[P(y_u|y_{1:u - 1}, X) = Decoder(c_u, q_{u - 1}, y_{u - 1})]

其中，编码器神经网络会生成声学输入的隐藏表示 (h_t)，解码器则根据编码后的序列生成转录输出。注意力权重 (a_{ut}) 用于为解码器计算上下文向量 (c_u)，解码器隐藏状态 (q_u) 为解码器的下一次预测提供累积上下文。这里主要考虑两种注意力类型：基于内容的注意力和位置感知注意力。

1.1 基于内容的注意力

基于内容的注意力会学习一个权重向量 (g) 以及两个线性层 (W) 和 (V)（无偏置参数），用于对先前的预测和编码器隐藏状态 (h_t) 进行加权。具体表示为：
[e_{ut} = g^{\top}

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符 | 博主筛选后可见

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。