本文主要是记录一下研究生阶段看的第一篇论文,这是一篇Google发表在14年的论文,介绍了现在被广泛使用的Sequence to Sequence模型,参考了网上的一些论文笔记。原文l链接
论文结构
- 摘要
- 论文主要内容
- 总结
1. 摘要
深度神经网络DNN已经被证明是一个很好的工具在处理复制问题时有很好表现效果的工具,同时他也有自己的缺点,即需要大量的标注数据且不能处理序列到序列的映射。于是作者提出了一种通用的端到端的映射方法,作者用多层长短期记忆神经网络(LSTM)映射输入序列到一个固定维度的向量,然后再用另外一个LSTM神经网络来解码该向量。该模型在英语-法语翻译中获得了较高的评分,与当时最好的SMT(统计机器翻译模型)相差不大。
2. 论文主要内容
模型主要采用的就是长短期记忆模型(LSTM),他可以很好的处理自然语言处理中的长时序列依赖问题。用一个LSTM处理输入序列,产生一个固定维度的的向量表达,再用另外一个LSTM去解码该向量,得到输出序列,需要注意的是,输入序列的末尾要输入结束符号,以便判断结束产生输出。论文中给出的例子如图所示:
LSTM就是要估算 p ( y 1 , . . . , y T ′ ∣ x 1 , . . . x T ) p(y_1,...,y_{T'}|x_1,...x_T) p(y1,...,yT′∣x1,...x