Seq2Seq + attention 模型原理、训练，以及编码过程

最新推荐文章于 2025-07-03 19:28:59 发布

Chen_Meng_

最新推荐文章于 2025-07-03 19:28:59 发布

阅读量5.9k

点赞数 8

CC 4.0 BY-SA版权

分类专栏： deep learning NLP 文章标签：深度学习 seq2seq LSTM

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/Chen_Meng_/article/details/103786231

目录

3. Seq2Seq with Attention

1. 简介

Seq2Seq的基本结构是encoder-decoder，这个模型的目标是生成一个完整的句子。这个模型曾经使得谷歌翻译有较大幅度的提升，下面就以机器翻译为例子，来描述详述这个模型。

注：学习此模型需要有LSTM深度学习模型相关基础。

2. Seq2Seq

Seq2Seq框架依赖于encoder-decoder。 encoder对输入序列进行编码，而decoder生成目标序列。

2.1 Encoder

在encoder中输入hao are you ，每个单词，都被映射成一个 $d$ 维的词向量 $w\subset \mathbb{R}^{d}$ ，在这个例子中，输入将被转化成 $[w_{0},w_{1},w_{2}]\subset \mathbb{R}^{d\times 3}$ ，经过LSTM后，我们可以得到每一个词对应的隐状态 $[e_{0},e_{1},e_{2}]$ ，，和代表这个句子的向量 $e$ ，在这里， $e_{2} = e$ 。

encoder

2.2 Decoder

现在我们已经得到了代表句子的向量 $e$ ，这里我们将使用这个向量，输入到另一个LSTM单元，以特殊字符 $w_{sos}$ 作为起时字符，得到目标序列。

当时间步等0时：

$h_{0}=LSTM(e,w_{sos})\cdots \cdots \cdots \cdots \cdots \cdots \cdots \cdots (1)$

$s_{0} = g(h_{0})\cdots \cdots \cdots \cdots \cdots \cdots \cdots \cdots \cdots \cdots \cdots (2)$

$p_0 = softmax(s_{0}) \cdots \cdots \cdots \cdots \cdots \cdots \cdots \cdots \cdots (3)$

$i_{0} = argmax(p_{0})\cdots \cdots \cdots \cdots \cdots \cdots \cdots \cdots \cdots \cdots (4)$

$\huge e$ ：Encoder输出的句子向量

$\huge w_{sos}$ ：特殊词，代表起时位置，作为当前时间步骤的输入

$\huge h_{0}$ ：当前时间步骤的隐状态。 $\huge h_{0}\subset \mathbb{R}^{h}$ ， $\huge h$ 隐层的维度

$\huge s_{0}$ ：词表中，每个词的得分。 $\huge s_{0}\subset \mathbb{R}^{v}$ ， $\huge v$ 词表的大小

$\huge g$ ：函数(其实就是矩阵,w 和 b)， $\huge \mathbb{R}^{h} \mapsto \mathbb{R}^{v}$

$\huge p_{0}$ ： $\huge s_{0}$ 经过 $\huge softmax$ 归一化后得到在词表上的概率分布， $\huge p_{0}\subset \mathbb{R}^{v}$ ， $\huge v$ 词表的大小

$\huge i_{0}$ ： $\huge p_{0}$ 中最大概率词的索引。int值。

当时间步等于1时：

$h_{1}=LSTM(h_{0},w_{i_{0}}) \cdots \cdots \cdots \cdots \cdots \cdots \cdots \cdots (5)$

&nb

最低0.47元/天解锁文章

200万优质内容无限畅学

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。