Sequence to Sequence Learning with Neural Networks学习笔记

本文介绍了一种创新的序列到序列学习方法,该方法解决了传统DNN和RNN在处理序列长度不确定和输入输出不等长问题上的局限性。通过两个LSTM网络,一个用于将输入序列转换为背景向量,另一个用于将背景向量转换为目标序列,这种方法能有效处理长期依赖关系,提高翻译质量。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

论文的主要创新点

提出了序列到序列的学习方法

提出的背景
DNN的限制:

输入和输出向量维度固定,实际上很多序列问题中的序列长度不是已知先验

单个RNN 的限制:

输入和输出等长,且要一一对齐且对齐已知,无法应用到输入输出不等长且对应关系为非montonic

解决方案
两个RNN理论可行

一个负责将输入充列map 为固定大小的vector(背景向量,含有整个输入句子的信息),另一个RNN将背景向列map为target sequence .
但是由于long term depencies 难以训练

两个LSTM 可行
  • 同时将输入inverse ,效果更好,作者认为:introduction many short dependence because of minimal time lag
  • 可以感知语序,和语义,语义近,距离近。representative sensitive to the orders of words,对主动语态和被动语态影响不大。
  • 在这里插入图片描述
Related work

此工作与[18] N. Kalchbrenner and P. Blunsom. Recurrent continuous translation models. In EMNLP, 2013.紧密相关,其首次实现sentence to vector to sentence ,区别在于,使用CNN map 句子 to 向量,且没有考虑句子的语序。

[5] K. Cho, B. Merrienboer, C. Gulcehre, F. Bougares, H. Schwenk, and Y. Bengio. Learning phrase representations using RNN encoder-decoder for statistical machine translation. In Arxiv preprint arXiv:1406.1078,
2014.

[2] D. Bahdanau, K. Cho, and Y. Bengio. Neural machine translation by jointly learning to align and translate.
arXiv preprint arXiv:1409.0473, 2014

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值