【论文向】ACL2014-seq2seq
Sequence to Sequence Learning with Neural Networks
目录
注:论文阅读笔记仅帮助大家快读了解、知晓论文的创新点、重点等,如需详细掌握请点击上方标题自行阅读,在此是存在一定博主和读者偏见的,有任何问题欢迎留言指正或讨论。
Humble opinion
愚见总结:
神作
- 模型对句子的主动与被动语态并不敏感,但是对输入词的顺序很敏感
- 倒序输入句子能提升模型效果,很神奇:)
Abstract
尽管DNNs在大规模有标注数据集上训练效果很好,但无法解决seq2seq(序列到序列)问题。在这篇论文中,我们提出一种了对序列结构做最小假设的端到端方法,将使用多层LSTM来映射输入序列到固定维度的向量。我们主要的成果是对数据集WMT’14 的b英语到法语翻译任务,通过LSTM的翻译在整个数据集上获得了34.8的分数(BLEU),其中LSTM的分数会因out-of-vocabulary问题受到惩罚。值得注意的是,LSTM在长句上没有困难。对比而言,基于短语的机器翻译系统(SMT)在同样的数据集上实现了33.3分数。当我们用LSTM来重排序1000个由基于短语的SMT产生的假设时,达到了36.5的分数。LSTM同样学习到了习语和句向量,如对词序较为敏感,但对主被动相对不敏感。最终,我们发现反向读取源句(而不是目标句)中的单词顺序可以显著提高LSTM的性能,因为这样做引入了许多源句和目标句的短期依赖关系,这样使得优化问题更加容易。
问题:传统的基于短语的SMT(a phrase-based SMT system)怎样实现的?
一般的,基于短语的SMT将任意连续的字符串都看作短语,从词对齐的双语语料库中自动学习双语短语,以短语为单位进行翻译。Och[1]提出对齐模板方法,将单词映射到词类中,实现了句子和短语级两级对齐;Chiang[2] 提出了层次短语模型,形式上是一个同步的上下文无关法,允许短语内部包含子短语。
形式化:将一个汉语句子 f 1 J = f 1 f 2 . . . f J f_1^J = f_1f_2...f_J f1J=f1f2...fJ翻译成英语句子 e 1 I = e 1 e 2 . . . e I e_1^I = e_1e_2...e_I e1I=e1e2...eI
1 将汉语句子 f 1 J = f 1 f 2 . . . f J f_1^J = f_1f_2...f_J f1J=f1f2...f

最低0.47元/天 解锁文章
2683

被折叠的 条评论
为什么被折叠?



