seq2seq以及Attention机制

最新推荐文章于 2022-01-13 15:11:38 发布

转载最新推荐文章于 2022-01-13 15:11:38 发布 · 1.4k 阅读

文章标签：

#深度学习

深度学习专栏收录该内容

7 篇文章

订阅专栏

本文介绍Seq2Seq问题及Encoder-Decoder模型的工作原理。通过将输入序列编码为固定长度的向量，再将该向量解码为输出序列的方式实现任务如翻译、问答等。然而，这种模型存在局限性，尤其是在处理长序列时，信息丢失或被稀释的问题尤为突出。

RNN 由一系列相同的网络构成（图 1 中的长方形表示一个网络），上一个词语的向量表示作为计算下一个网络的输入，如此循环。整个句子每个词军计算完成，便得到了一个句子的语意向量。
这里写图片描述
所谓encoder-decoder模型，又叫做编码-解码模型。这是一种应用于seq2seq问题的模型。

那么seq2seq又是什么呢？简单的说，就是根据一个输入序列x，来生成另一个输出序列y。seq2seq有很多的应用，例如翻译，文档摘取，问答系统等等。在翻译中，输入序列是待翻译的文本，输出序列是翻译后的文本；在问答系统中，输入序列是提出的问题，而输出序列是答案。

为了解决seq2seq问题，有人提出了encoder-decoder模型，也就是编码-解码模型。所谓编码，就是将输入序列转化成一个固定长度的向量；解码，就是将之前生成的固定向量再转化成输出序列。
这里写图片描述
encoder-decoder模型虽然非常经典，但是局限性也非常大。最大的局限性就在于编码和解码之间的唯一联系就是一个固定长度的语义向量C。也就是说，编码器要将整个序列的信息压缩进一个固定长度的向量中去。但是这样做有两个弊端，一是语义向量无法完全表示整个序列的信息，还有就是先输入的内容携带的信息会被后输入的信息稀释掉，或者说，被覆盖了。输入序列越长，这个现象就越严重。这就使得在解码的时候一开始就没有获得输入序列足够的信息，那么解码的准确度自然也就要打个折扣了。