读sequence to sequence 文章

本文探讨了使用多层LSTM解决序列到序列(sequence2sequence)问题的方法,特别是在翻译场景下,如英文到法文的翻译。通过将输入序列映射到固定维度,并利用另一个LSTM从该向量还原目标序列,模型能处理不同长度的输入和输出。实验表明,深度LSTM比浅层LSTM在复杂任务上表现更佳。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

      文章中首先提到DNN,不能解决sequence2sequence的问题,因为输入和输出固定的,但是对于翻译等问题,序列的长度是不固定的,这篇文章主要是用了多层的LSTM,把输入映射到一个固定的维度,然后再用另外一个LSTM,从这固定的向量去还原抽取目标序列。这里测试场景是采用了英文到法文的翻译,采用BLEU来度量效果。

 

1. 模型示意图

  • 输入是ABC, 输出是WXYZ
  • 当输出的序列产生之后,就不再进行预测了

 

 

2. 模型目标

  • x1,...,xT 表示输入 , y1,...,yt 表示输出, v是什么呢?v 就是 将输入通过LSTM得到的最后一个hidden state , 因为

最后一个hidden state 包含了整个sequence的信息.

  • 需要增加一个sequence的结束符号 <EOS>
  • 发现深度的LSTM 模型效果相比shallow的LSTM模型更好,所以用了4层的LSTM
  • LSTM是逆向读取输入序列,逆向读取的好处,试验板块有一些解释

 

3. 试验

  • 数据集
    • 英 译 法 的数据集,共计1200万句子,包含3.48亿个法文单词,和3.04亿个英文单词
    • 对于输入,除了最常用的16万个词之外,其他都定义为unk,对于输出,除了最常用的80000个词外,其他都定义为unk
  • 训练的目标函数
  • 逆向读取input 
    • 作者这么解释,当我们要把一个词翻译成另外一个词的时候,比如 a,b,c 翻译成 1,2,3的时候,对于目标1来说,a距离比较远,相关性也较低,但每个source 和目标词的平均距离是没有改变的
  • 训练的细节
    • 深度为4的LSTM,每层1000个单元
    • 1000维的embedding,输入是160000词库,输出是80000个词库
    • 发现深度的LSTM对perlexity减少近10%,可能是因为更多的隐层状态
    • LSTM参数的初始化是参数服从[-0.08,0.08]的均匀分布中抽取
    • 用SGD,学习率是0.7,在5个epoch之后,学习率减半,实际上训练只用了7.5个epoch
    • LSTM不会遇到梯度消失的问题,但是会遇到梯度爆炸的问题,会把梯度限制在[10,25]范围内
    • 设置句子长度是固定的

 

4.结论

  • 反向读取效果比较好
  • LSTM对于长句子准确率也高

 

refer:Sequence to Sequence Learning with Neural Networks   Google团队的

<think>好的,我现在需要处理用户关于《Sequence to Sequence Learning with Neural Networks》论文的参考文献请求。首先,我需要确认用户的具体需求。用户提到想查找该论文的引用和参考文献,但提供的站内引用都是关于这篇论文本身的讨论,而不是原始论文的参考文献列表。 接下来,我要检查用户提供的引用内容。引用1到5都是用户站内的资料,主要是对该论文的翻译、阅总结以及创新点的分析,没有直接给出原论文的参考文献。因此,我需要根据已知信息,指导用户如何找到原论文的参考文献。 首先,正确的做法是直接查看原论文的末尾部分,通常参考文献会在那里列出。但由于用户可能无法访问原论文,我需要提供其他方法。比如,通过Google Scholar搜索该论文,查看被引用的文献,或者使用学术数据库如IEEE Xplore、ACM Digital Library来查找。 另外,用户可能需要知道标准的引用格式。例如,原论文的作者是Ilya Sutskever等,发表于2014年的NIPS会议。正确的引用格式应该是: Sutskever, I., Vinyals, O., & Le, Q. V. (2014). Sequence to sequence learning with neural networks. In *Advances in neural information processing systems* (pp. 3104-3112). 同时,用户可能需要该论文中引用的其他文献,例如关于LSTM、Encoder-Decoder结构的相关研究。这时可以建议用户查阅原论文的参考文献部分,或者推荐一些经典论文,如Hochreiter的LSTM论文、Bahdanau的注意力机制论文等。 需要注意的是,用户提供的站内引用并没有给出原论文的参考文献,因此无法直接从中提取。需要引导用户到正确的学术资源中去查找,并可能提供一些示例引用格式和相关的重要文献,帮助用户进一步研究。</think>关于论文《Sequence to Sequence Learning with Neural Networks》的参考文献及引用方法,以下是分步说明: --- ### 1. **论文基本信息** - **标题**: Sequence to Sequence Learning with Neural Networks - **作者**: Ilya Sutskever, Oriol Vinyals, Quoc V. Le - **会议/年份**: 2014年发表于NeurIPS(NIPS)会议 - **核心贡献**: 提出基于LSTM的Encoder-Decoder框架,首次实现端到端序列序列学习[^3][^4]。 --- ### 2. **标准引用格式** 根据APA格式(示例): ```latex Sutskever, I., Vinyals, O., & Le, Q. V. (2014). Sequence to sequence learning with neural networks. In \textit{Advances in neural information processing systems} (pp. 3104–3112). ``` --- ### 3. **查找原论文参考文献的方法** - **直接查看原论文**:论文末尾的"References"部分列出了所有引用文献[^1]。 - **通过学术数据库**:在Google Scholar、IEEE Xplore或ACM Digital Library中搜索论文标题,可获取完整参考文献列表。 - **使用引用管理工具**:Zotero或Mendeley导入论文后自动生成参考文献格式。 --- ### 4. **该论文常引用的关键文献** 论文中可能引用的经典研究包括: 1. **LSTM基础论文**:Hochreiter, S., & Schmidhuber, J. (1997). Long short-term memory. 2. **Encoder-Decoder结构**:Kalchbrenner, N., & Blunsom, P. (2013). Recurrent continuous translation models. 3. **神经语言模型**:Bengio, Y., et al. (2003). A neural probabilistic language model. --- ### 5. **该论文的后续引用** 若需查找引用此论文的后续研究(如注意力机制、Transformer等),可通过Google Scholar的"Cited by"功能查看,目前已被引用超3万次。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值