目录
1. 简介
Seq2Seq的基本结构是encoder-decoder,这个模型的目标是生成一个完整的句子。这个模型曾经使得谷歌翻译有较大幅度的提升,下面就以机器翻译为例子,来描述详述这个模型。
注:学习此模型需要有LSTM深度学习模型相关基础。
2. Seq2Seq
Seq2Seq框架依赖于encoder-decoder。 encoder对输入序列进行编码,而decoder生成目标序列。
2.1 Encoder
在encoder中输入hao are you ,每个单词,都被映射成一个维的词向量
,在这个例子中,输入将被转化成
,经过LSTM后,我们可以得到每一个词对应的隐状态
,,和代表这个句子的向量
,在这里,
。

2.2 Decoder
现在我们已经得到了代表句子的向量,这里我们将使用这个向量,输入到另一个LSTM单元,以特殊字符
作为起时字符,得到目标序列。
当时间步等0时:
:Encoder输出的句子向量
:特殊词,代表起时位置,作为当前时间步骤的输入
:当前时间步骤的隐状态。
,
隐层的维度
:词表中,每个词的得分。
,
词表的大小
:函数(其实就是矩阵,w 和 b),
:
经过
归一化后得到在词表上的概率分布,
,
词表的大小
:
中最大概率词的索引。int值。
当时间步等于1时:
&nb