Re71:读论文 Sequence to Sequence Learning with Neural Networks

本文介绍了2014年谷歌发表的关于Seq2Seq模型的开创性论文,包括其结构(编码器-解码器)、在机器翻译中的应用、长程依赖问题的解决方法(注意力机制)以及当时的实验挑战。作者还提到了模型的局限性和优化策略,如使用LSTM和Transformer的改进。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

诸神缄默不语-个人优快云博文目录
诸神缄默不语的论文阅读笔记和分类

论文名称:Sequence to Sequence Learning with Neural Networks
ArXiv下载地址:https://arxiv.org/abs/1409.3215

本文是2014年NeurIPS论文(那时候这个会还叫NIPS),作者来自谷歌。本文是seq2seq (sequence to sequence) 模型的开山之作,一般来说现在写到seq2seq模型的时候就会引用这篇论文。

1. Seq2Seq模型

Seq2Seq模型处理输入和输出都是一组序列的数据,在自然语言处理领域主要就是文本生成相关的任务,如机器翻译、文本摘要、问答等。
Seq2Seq 模型由两个主要的组成部分构成:编码器(Encoder)和解码器(Decoder),两部分都是RNN。编码器将输入序列转换为固定长度的上下文向量,然后解码器使用这个上下文向量来生成输出序列。

类似思路的工作之前也见:
(2013 EMNLP) Recurrent continuous translation models:这篇是用的CNN
(2014 EMNLP) Learning phrase representations using RNN encoder-decoder for statistical machine translation:关注于将RNN嵌入统计翻译模型。用纯RNN,因为长程依赖问题所以效果不好
(2015 ICLR) Neural machine translation by jointly learning to align and translate:在上一篇的基础上加入attention,试图解决长序列问题

原论文示例图:
在这里插入图片描述

由4层LSTM(Long Short-Term Memory)将输入序列转换为固定维度的向量,再用另一个LSTM将向量解码为输出序列。本文是在机器翻译领域做的,但显然后来这个模型被扩展到了各种文本到文本的任务上。
用LSTM来对SOTA(SMT统计机器翻译模型)输出结果重排序(计算LSTM对hypothesis表征的对数似然作为LSTM得分,和原始得分求平均作为最终得分)后,可以提升BLEU指标。
本文还发现倒转输入序列顺序能提高模型效果。(一个trick)这个很奇怪,我也没太搞懂,我怀疑是因为RNN对最后的输入最敏感,但是语句就是最前面的最重要,所以就这样了。原文说是因为这么干能引入短程信息。

RNN:
在这里插入图片描述

在这里插入图片描述

训练目标:
在这里插入图片描述
在这里插入图片描述

当时应该还没有系统性总结为encoder-decoder架构,一个encoder-decoder架构更清晰的示意图见:(我后来又看了一下,之前的参考文献里就有了,但是s2s这篇没有按照这种格式来画)
在这里插入图片描述

原始Seq2Seq有显著的长程依赖问题,后续研究提出注意力(attention)机制减缓这一问题。
transformer还有一个idea就是RNN不能并行,所以直接用矩阵乘法实现并行,然后改进了编码方式,来将token的位置信息编码进模型。

2. 实验

当年条件还是很艰苦的,要用C++手写代码,一个4层LSTM模型要分到8个GPU上并行,一次要跑10天……

在这里插入图片描述

当年论文也是不需要超过SOTA的。

句子向量可视化:
在这里插入图片描述

案例分析:
在这里插入图片描述

长度对模型效果的影响和少见词语对模型效果的影响:
在这里插入图片描述

3. 本文撰写过程中参考的其他网络资料

  1. Understanding Encoder-Decoder Sequence to Sequence Model | by Simeon Kostadinov | Towards Data Science
  2. Sequence to Sequence Learning with Neural Networks - 知乎
<think>好的,我现在需要处理用户关于《Sequence to Sequence Learning with Neural Networks论文的参考文献请求。首先,我需要确认用户的具体需求。用户提到想查找该论文的引用和参考文献,但提供的站内引用都是关于这篇论文本身的讨论,而不是原始论文的参考文献列表。 接下来,我要检查用户提供的引用内容。引用1到5都是用户站内的资料,主要是对该论文的翻译、阅总结以及创新点的分析,没有直接给出原论文的参考文献。因此,我需要根据已知信息,指导用户如何找到原论文的参考文献。 首先,正确的做法是直接查看原论文的末尾部分,通常参考文献会在那里列出。但由于用户可能无法访问原论文,我需要提供其他方法。比如,通过Google Scholar搜索该论文,查看被引用的文献,或者使用学术数据库如IEEE Xplore、ACM Digital Library来查找。 另外,用户可能需要知道标准的引用格式。例如,原论文的作者是Ilya Sutskever等,发表于2014年的NIPS会议。正确的引用格式应该是: Sutskever, I., Vinyals, O., & Le, Q. V. (2014). Sequence to sequence learning with neural networks. In *Advances in neural information processing systems* (pp. 3104-3112). 同时,用户可能需要该论文中引用的其他文献,例如关于LSTM、Encoder-Decoder结构的相关研究。这时可以建议用户查阅原论文的参考文献部分,或者推荐一些经典论文,如Hochreiter的LSTM论文、Bahdanau的注意力机制论文等。 需要注意的是,用户提供的站内引用并没有给出原论文的参考文献,因此无法直接从中提取。需要引导用户到正确的学术资源中去查找,并可能提供一些示例引用格式和相关的重要文献,帮助用户进一步研究。</think>关于论文Sequence to Sequence Learning with Neural Networks》的参考文献及引用方法,以下是分步说明: --- ### 1. **论文基本信息** - **标题**: Sequence to Sequence Learning with Neural Networks - **作者**: Ilya Sutskever, Oriol Vinyals, Quoc V. Le - **会议/年份**: 2014年发表于NeurIPS(NIPS)会议 - **核心贡献**: 提出基于LSTM的Encoder-Decoder框架,首次实现端到端序列到序列学习[^3][^4]。 --- ### 2. **标准引用格式** 根据APA格式(示例): ```latex Sutskever, I., Vinyals, O., & Le, Q. V. (2014). Sequence to sequence learning with neural networks. In \textit{Advances in neural information processing systems} (pp. 3104–3112). ``` --- ### 3. **查找原论文参考文献的方法** - **直接查看原论文**:论文末尾的"References"部分列出了所有引用文献[^1]。 - **通过学术数据库**:在Google Scholar、IEEE Xplore或ACM Digital Library中搜索论文标题,可获取完整参考文献列表。 - **使用引用管理工具**:Zotero或Mendeley导入论文后自动生成参考文献格式。 --- ### 4. **该论文常引用的关键文献** 论文中可能引用的经典研究包括: 1. **LSTM基础论文**:Hochreiter, S., & Schmidhuber, J. (1997). Long short-term memory. 2. **Encoder-Decoder结构**:Kalchbrenner, N., & Blunsom, P. (2013). Recurrent continuous translation models. 3. **神经语言模型**:Bengio, Y., et al. (2003). A neural probabilistic language model. --- ### 5. **该论文的后续引用** 若需查找引用此论文的后续研究(如注意力机制、Transformer等),可通过Google Scholar的"Cited by"功能查看,目前已被引用超3万次。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

诸神缄默不语

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值