Luong注意力原理
1 简介
NMT(Neural Machine Translation)通常是一种以端到端方式训练的大型神经网络,具有很好的泛化到很长的单词序列的能力。
A stacking recurrent architecture
与此同时,“attention”的概念在训练神经网络中得到流行,它允许模型学习不同模式之间的对齐。
本文研究了两种简单有效的注意机制:
-
一种是全局方法,它总是关注所有源词;
-
另一种是局部方法,它每次只关注源词的一个子集。
NMT(Neural Machine Translation)通常是一种以端到端方式训练的大型神经网络,具有很好的泛化到很长的单词序列的能力。
A stacking recurrent architecture
与此同时,“attention”的概念在训练神经网络中得到流行,它允许模型学习不同模式之间的对齐。
本文研究了两种简单有效的注意机制:
一种是全局方法,它总是关注所有源词;
另一种是局部方法,它每次只关注源词的一个子集。