跟着问题学16——seq2seq详解及代码实战

最新推荐文章于 2025-04-13 21:41:19 发布

不如语冰

最新推荐文章于 2025-04-13 21:41:19 发布

阅读量2k

点赞数 42

分类专栏： AI与大模型笔记代码解析文章标签：深度学习 rnn python 人工智能神经网络自然语言处理 nlp

本文链接：https://blog.youkuaiyun.com/weixin_42251091/article/details/144473034

版权

什么是Seq2seq

Seq2seq就是把一段输入序列挖掘提取特征“编码”存储到中间量里，然后根据中间量，然后训练“解码”输出想要的结果。

这里举两个例子：

机器翻译：把一种语言翻译成另一种语言
语音识别：把一段语音识别出来，用文字表示

从这两个例子可以看出，输入的是一段序列（一种语言文字和一段语音），就，（经过中间向量），然后输出也是一段序列（另一种语言文字和和语音对应的文字），即Sequence-to-sequence。

所谓的Sequence2Sequence任务主要是泛指一些Sequence到Sequence的映射问题，Sequence在这里可以理解为一个字符串序列，当我们在给定一个字符串序列后，希望得到与之对应的另一个字符串序列（如翻译后的、如语义上对应的）时，这个任务就可以称为Sequence2Sequence了。这种结构最重要的地方在于输入序列和输出序列的长度是可变的。

seq2seq和RNN的关系是什么样的

前面介绍了seq2seq的任务，那它和我们之前学的CNN和RNN模型有什么关系呢？Seq2seq是一个解决任务的框架，像word2vec那样，根据不同的任务可以选择不同的编码器和解码器（例如，CNN、RNN、LSTM、GRU等）。只是在处理序列任务时，一般选用RNN系列模型作为seq2seq的组件。

编码器和解码器分别对应输入序列和输出序列的两个循环神经网络。在Seq2Seq结构中，编码器Encoder把所有的输入序列都编码成一个统一的语义向量Context，然后再由解码器Decoder解码。在解码器Decoder解码的过程中，不断地将前一个时刻t-1的输出作为后一个时刻t的输入，循环解码，直到输出停止符为止。

为什么LSTM等也可以输入输出不等长，为什么还需要seq2seq?