论文阅读:《Neural Machine Translation by Jointly Learning to Align and Translate》

本文介绍了2015年的研究,提出了注意力机制以解决神经机器翻译中固定长度向量编码的瓶颈问题。作者提出,模型在生成翻译词时,会搜索原句中最相关的位置,而不是尝试将所有信息编码到单个向量中。通过使用双向RNN进行注释序列的创建,每个翻译词都有其特定的上下文,实现了更灵活的翻译过程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

这是2015年的一篇会议论文,作者是Dmitry Bandana,KyungHyun Cho,Yoshua Bengio。本文最重要的贡献就是提出了attention机制。下面我先总结每段的要点,然后适当添加自己的解读。

ABSTRACT
神经机器翻译(NMT)里,别人大多用encoder-decoder,我们推测把原句编码到一个固定长度的向量是一个瓶颈,然后我们提出了改进。

1 INTRODUCTION
神经机器翻译是新技术,大多数都是encoder-decoder。一个潜在的问题是把信息都压缩在固定长度的向量,无法对应长句子。为了解决这个问题,我们提出了一个扩展,它同时进行对齐和翻译。每次我们的模型生成新的翻译词,它在原句那些最有可能包含有关信息的位置上进行搜索。
这个方法最重要的特点是,它没有尝试将原句的所有部分编码到固定长度的向量,而是它把原句编码到一序列向量,然后在解码的时候灵活的选用这个序列的子集。

2 BACKGROUND:NEURAL MACHINE TRANSLATION
从统计的角度看,翻译相当于寻找译句 y ,使得给定原句 x 时条件概率最大,即 argmaxyp(y|x)

2.1 RNN ENCODER-DECODER
在Encoder-Decoder框架里,编码器把原句,一个序列的向量 x=(x1,...,xTx) ,编码到一个向量 c 。最普遍的方法是用一个RNN:

ht=f(xt,ht1)

还有

c=q({ ht,...,hTx})

解码器用来给定上下文向量 c 和所有之前预测好的词 {y1,...,yt1} ,预测下一个词 yt
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值