【论文向】Sequence to Sequence Learning with Neural Networks

最新推荐文章于 2025-10-30 17:23:33 发布

原创

最新推荐文章于 2025-10-30 17:23:33 发布 · 5.8k 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#自然语言处理 #深度学习 #seq2seq

【论文向】ACL2014-seq2seq

Sequence to Sequence Learning with Neural Networks

Humble opinion

愚见总结：
神作

模型对句子的主动与被动语态并不敏感，但是对输入词的顺序很敏感
倒序输入句子能提升模型效果，很神奇:)

Abstract

尽管DNNs在大规模有标注数据集上训练效果很好，但无法解决seq2seq（序列到序列）问题。在这篇论文中，我们提出一种了对序列结构做最小假设的端到端方法，将使用多层LSTM来映射输入序列到固定维度的向量。我们主要的成果是对数据集WMT’14 的b英语到法语翻译任务，通过LSTM的翻译在整个数据集上获得了34.8的分数（BLEU），其中LSTM的分数会因out-of-vocabulary问题受到惩罚。值得注意的是，LSTM在长句上没有困难。对比而言，基于短语的机器翻译系统（SMT）在同样的数据集上实现了33.3分数。当我们用LSTM来重排序1000个由基于短语的SMT产生的假设时，达到了36.5的分数。LSTM同样学习到了习语和句向量，如对词序较为敏感，但对主被动相对不敏感。最终，我们发现反向读取源句（而不是目标句）中的单词顺序可以显著提高LSTM的性能，因为这样做引入了许多源句和目标句的短期依赖关系，这样使得优化问题更加容易。

问题：传统的基于短语的SMT（a phrase-based SMT system）怎样实现的？
一般的，基于短语的SMT将任意连续的字符串都看作短语，从词对齐的双语语料库中自动学习双语短语，以短语为单位进行翻译。Och[1]提出对齐模板方法，将单词映射到词类中，实现了句子和短语级两级对齐；Chiang[2] 提出了层次短语模型，形式上是一个同步的上下文无关法，允许短语内部包含子短语。
形式化：将一个汉语句子 $f_1^J = f_1f_2...f_J$ 翻译成英语句子 $e_1^I = e_1e_2...e_I$
1 将汉语句子 $f_1^J = f_1f_2...f_J$