seq2seq模型理解

最新推荐文章于 2025-06-04 14:17:47 发布

原创最新推荐文章于 2025-06-04 14:17:47 发布 · 860 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#seq2seq #encoder #decoder #beamsearch #attention

deep-learning 专栏收录该内容

2 篇文章

订阅专栏

本文深入探讨seq2seq模型，包括Encoder和Decoder的原理，训练过程中的多分类交叉熵损失，预测阶段的Beam Search策略，以及Attention机制。通过实例解释了如何将one-hot向量转换为词向量，以及如何在Decoder中引入word embedding。同时，还介绍了深度RNN结构的相关知识。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

声明：本文在paddle book NMT一节的基础上进行了补充，解释decoder cost、attention模型中的对齐公式、decoder引入word embedding，以及深层RNN的一种方式。

一、模型结构图

这里写图片描述

二、Encoder

编码阶段分为三步：

one-hot vector表示：将源语言句子的每个词表示成一个列向量，这个向量的维度与词汇表大小相同，并且只有一个维度上有值1其余全是0。
映射到低维语义空间的词向量：one-hot vector表示存在两个问题，
1) 生成的向量维度往往很大，容易造成维数灾难；
2) 难以刻画词与词之间的语义关系。
用RNN编码源语言词序列，隐向量更新公式如下：
$h i = Φ θ (h i - 1, s i)$ $h_i = Φ_θ(h_{i-1}, s_i)$
整句话的向量表示可以采用h在最后一个时间步T的状态编码，或使用时间维上的池化（pooling）结果。

三、Decoder

A. 训练过程多分类交叉熵

每一个时刻，根据源语言句子的编码信息c、真实目标语言序列的第i个词ui和i时刻RNN的隐层状态zi，计算出下一个隐层状态zi+1
$z i + 1 = Φ θ (c, u i, z i)$ $z_{i+1} = Φ_θ (c, u_i, z_i)$
实际上，真正计算 $z_{i+1}$ 时用的不是one-hot向量的 $u_i$ ，而是 $u_i$ 对应的embedding向量，这个地方需要注意：
$z i + 1 = Φ θ (c, E u i, z i)$ $z_{i+1} = Φ_θ (c, Eu_i, z_i)$
将zi+1通过softmax归一化，得到目标语言序列的第i+1个单词的概率分布pi+1
当前预测的词与真实词可以看做一个多分类问题，目标是希望模型给出的词与训练数据中的词是一致的，多分类交叉熵公式如下：

B. 预测过程 Beam Search

这里写图片描述
Beam Search 是一种启发式图搜索算法，用于在图或树中搜索有限集合中的最优扩展节点，通常用在解空间非常大的系统（如机器翻译、语音识别）中，原因是内存无法装下图或树中所有展开的解。

柱搜索算法使用广度优先策略建立搜索树，在树的每一层，按照启发代价（生成词的log概率之和）对节点进行排序，然后仅留下预先确定的个数（beam size）的节点。只有这些节点会在下一层继续扩展，其他节点就被剪掉了，也就是说保留了质量较高的节点，剪枝了质量较差的节点。因此，搜索所占用的空间和时间大幅减少，但缺点是无法保证一定获得最优解。

beam search前两步的操作和训练过程是一样，不同之处是第三步，根据 $p_i$ 采样 $u_i$ ，而非计算交叉熵。

五、Attention

decoder attention

c i = \sum j = 1 T a i j h j ， a i = [a i 1, a i 2, a i 3, . . ., a i T]

$c_i = \sum_{j=1}^T a_{ij} h_j， a_i = [a_{i1}, a_{i2}, a_{i3},..., a_{iT}]$

a i j = e x p ( e i j ) \sum T k = 1 e x p ( e i k )

$a_{ij} = \dfrac{exp(e_{ij})}{\sum_{k=1}^Texp(e_{ik})}$

e i j = a l i g n (z i, h j)

$e_{ij} = align(z_i, h_j)$

a l i g n (z i, h j) = v T a t a n h (W a z i + U a h j)

$align(z_i, h_j)= v_a^T tanh(W_a z_i + U_a h_j)$

六、Deep RNN

七、参考

paddle book 机器翻译
Bahdanau D, Cho K, Bengio Y. Neural machine translation by jointly learning to align and translate[J]. arXiv preprint arXiv:1409.0473, 2014.
Zhou J, Cao Y, Wang X, et al. Deep recurrent models with fast-forward connections for neural machine translation[J]. arXiv preprint arXiv:1606.04199, 2016.