在NLP领域,sequence to sequence模型有很多应用,比如机器翻译、自动应答机器人等。在看懂了相关的论文后,我开始研读TensorFlow提供的源代码,刚开始看时感觉非常晦涩,现在基本都弄懂了,我在这里主要介绍Sequence-to-Sequence Models用到的理论,然后对源代码进行详解,也算是对自己这两周的学习进行一下总结,如果也能够对您有所帮助的话,那就再好不过了~
sequence-to-sequence模型
在NLP中最为常见的模型是language model,它的研究对象是单一序列,而本文中的sequence to sequence模型同时研究两个序列。经典的sequence-to-sequence模型由两个RNN网络构成,一个被称为“encoder”,另一个则称为“decoder”,前者负责把variable-length序列编码成fixed-length向量表示,后者负责把fixed_length向量表示解码成variable-length输出,它的基本网络结构如下,

其中每一个小圆圈代表一个cell,比如GRUcell、LSTMcell、multi-layer-GRUcell、multi-layer-GRUcell等。这里比较直观的解释就是,encoder的最终隐状态c包含了输入序列的所有信息,因此可以使用c进行解码输出。尽管“encoder”或者“decoder”内部存在权值共享,但encoder和decoder之间一般具有不同的一套参数。在训练sequence-to-sequence模型时,类似于有监督学习模型,最大化目标函数 θ ∗ = a r g max θ ∑ n = N ∑ t = 1 T n l o g P ( y t n ∣ y < t n , x n ) \theta^{*}=arg\max_{\theta}\sum_{n=}^{N}\sum_{t=1}^{T_{n}}logP(y_{t}^{n}|y_{<t}^{n},x^{n}) θ∗=argθmaxn=∑Nt=1∑TnlogP(ytn∣y<tn,xn) 其中 p ( y t ∣ y 1 , . . , y t − 1 , c ) = g ( y t − 1 , s t , c ) = 1 Z e x p ( w t T ϕ ( y t − 1 , z t , c t ) + b t ) p({y_{t}|y_{1},..,y_{t-1}}, c)=g(y_{t-1},s_{t},c)=\frac{1}{Z}exp(w_{t}^{T}\phi (y_{t-1},z_{t},c_{t})+b_{t}) p(yt∣y1,..,yt−1,c)=g(yt−1,st,c)=Z1exp(wtTϕ(yt−1,zt,ct)