Encoder-Decoder具体过程

本文深入探讨了Seq2Seq模型的Encoder与Decoder实现细节,包括输入处理、embedding、多层LSTM及Dense层的应用。解析了训练与推理阶段的不同处理方式,以及如何通过反馈机制生成序列。

原文链接
Encoder-DecoderEncoder的具体实现
input:不是原始的序列,而是将序列中的每个元素都转换为字典中对应的id。不管是train还是inference阶段,为了效率都是一次输入一个mini-batch,所以需要为input定义一个int型rank=2的placeholder。?
embeddingembedding作用,定义为trainable=True的变量,这样即使使用pre-trained的词向量也可以在训练模型的过程中调优。
MultiLayer_LSTM:接受的输入是序列中每个元素对应的向量。

Decoder具体实现过程
input:与encoder的一样,也是序列元素对应的id。
embedding:视情况而定需不需要与encoder的embedding不同,比如在翻译中,源语言与目标语言的词向量空间就不一样,但是像文本摘要这种都是基于一种语言的,encoder与decoder的embedding matrix是可以共用的。

Dense_Layer:与encoder仅输出hidden state不同,decoder需要输出每个时刻词典中各token的概率,因此还需要一个dense layer将hidden state向量转换为维度等于vocabulary_size的向量,然后再将dense layer输出的logits经过softmax层得到最终的token概率。

Decoder的定义需要区分inference阶段还是train阶段。

inference阶段,decoder的输出是未知的,对于生成[‘W’, ‘X’, ‘Y’, ‘Z’, ‘’]序列,是在decoder输出token 'W’之后,再将’W’作为输入,结合此时的hidden state,推断出下一个token ‘X’,以此类推直到输出为或达到最长序列长度之后终止。

而在train阶段,decoder应该输出的序列是已知的,不管最终output的结果是什么,都将已知序列中的token依次输入。train的阶段如果也将输出的结果再作为输入,一旦前面的一步错了,都会放大误差,导致训练过程更不稳定。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值