Re71：读论文 Sequence to Sequence Learning with Neural Networks

最新推荐文章于 2025-03-19 16:35:38 发布

原创最新推荐文章于 2025-03-19 16:35:38 发布 · 1k 阅读

18 ·

CC 4.0 BY-SA版权

文章标签：

#seq2seq #RNN #LSTM #机器翻译 #自然语言处理 #NLP #循环神经网络

人工智能学习笔记专栏收录该内容

277 篇文章

订阅专栏

本文介绍了2014年谷歌发表的关于Seq2Seq模型的开创性论文，包括其结构（编码器-解码器）、在机器翻译中的应用、长程依赖问题的解决方法（注意力机制）以及当时的实验挑战。作者还提到了模型的局限性和优化策略，如使用LSTM和Transformer的改进。

诸神缄默不语-个人优快云博文目录
 诸神缄默不语的论文阅读笔记和分类

论文名称：Sequence to Sequence Learning with Neural Networks
ArXiv下载地址：https://arxiv.org/abs/1409.3215

本文是2014年NeurIPS论文（那时候这个会还叫NIPS），作者来自谷歌。本文是seq2seq (sequence to sequence) 模型的开山之作，一般来说现在写到seq2seq模型的时候就会引用这篇论文。

1. Seq2Seq模型

Seq2Seq模型处理输入和输出都是一组序列的数据，在自然语言处理领域主要就是文本生成相关的任务，如机器翻译、文本摘要、问答等。
Seq2Seq 模型由两个主要的组成部分构成：编码器（Encoder）和解码器（Decoder），两部分都是RNN。编码器将输入序列转换为固定长度的上下文向量，然后解码器使用这个上下文向量来生成输出序列。

类似思路的工作之前也见：
(2013 EMNLP) Recurrent continuous translation models：这篇是用的CNN
(2014 EMNLP) Learning phrase representations using RNN encoder-decoder for statistical machine translation：关注于将RNN嵌入统计翻译模型。用纯RNN，因为长程依赖问题所以效果不好
(2015 ICLR) Neural machine translation by jointly learning to align and translate：在上一篇的基础上加入attention，试图解决长序列问题

原论文示例图：
在这里插入图片描述

由4层LSTM（Long Short-Term Memory）将输入序列转换为固定维度的向量，再用另一个LSTM将向量解码为输出序列。本文是在机器翻译领域做的，但显然后来这个模型被扩展到了各种文本到文本的任务上。
用LSTM来对SOTA（SMT统计机器翻译模型）输出结果重排序（计算LSTM对hypothesis表征的对数似然作为LSTM得分，和原始得分求平均作为最终得分）后，可以提升BLEU指标。
本文还发现倒转输入序列顺序能提高模型效果。（一个trick）这个很奇怪，我也没太搞懂，我怀疑是因为RNN对最后的输入最敏感，但是语句就是最前面的最重要，所以就这样了。原文说是因为这么干能引入短程信息。

RNN：
在这里插入图片描述