机器翻译首次引入注意力机制-ALIGN AND TRANSLATE

1 简介

本文首次在机器翻译中引入注意力机制。本文根据2015年《NEURAL MACHINE TRANSLATION BY JOINTLY LEARNING TO ALIGN AND TRANSLATE》翻译总结。看文章的标题,可以知道该模型改善了align(源语句与目标翻译语句的对齐),引入注意力机制进行align。

在本文之前,已经出现encoder-decoder神经网络进行机器翻译,不像以前传统的phrase-based translation system(2003),该神经网络尝试建立一个单独的、大的神经网络,直接读一个句子,然后输出正确的翻译。

encoder-decoder方法作为一种神经网络,需要将源语句的所有必要信息压缩到一个固定长度的向量。这就会导致该模型很难处理长的句子,尤其是当语句比训练时的还长时。

为此,我们扩展了encoder-decoder模型,取名RNNsearch,可以联合学习对齐和翻译。模型预测一个目标单词时,会基于和源位置相关的上下文向量,以及所有前面已预测的目标单词。

本模型和以前模型的最大区别是它不再尝试将整个输入语句编码成一个单独的固定长度的向量。它将输入语句编码成一系列向量,当解码时会自适应的选择其中的一部分向量。

本模型可以很好的处理长语句的翻译。首次引入了注意力机制。

2 标准RNN ENCODER–DECODER

在这里插入图片描述

在这里插入图片描述

3 本文模型,对齐和翻译

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

4.实验结果

RNNencdec代表以前的模型,RNNsearch是我们的模型。30、50代表训练时采用的句子长度。可以看到RNNsearch取得了很好效果,甚至RNNsearch-30都好于RNNencdec-50.
Moses是传统的 phrase-based translation system (Moses),非神经网络模型。

在这里插入图片描述

下图可以看出来我们的模型对于长句子可以处理的更好,尤其是RNNsearch-50.

在这里插入图片描述

<think>嗯,用户这次想了解注意力机制首次提出的相关信息,包括时间、论文和背景。结合对话历史,我之前已经梳理过注意力机制的发展脉络,其中明确提到2014年Bahdanau的论文是首个正式提出该机制的里程碑工作。 用户提供的四个引用中,引用[2]提到"这个有趣的想法自提出后得到了快速发展",但未明确首次提出的细节;引用[4]讨论时间注意力LSTM的应用,与核心问题无关。需要排除这些干扰信息,专注学术溯源。 查阅补充资料确认:尽管认知科学中早有"注意力"概念,但将其作为可计算机制植入神经网络的关键突破确实是: - 2014年ICLR论文(2015正式发表) - 由Dzmitry Bahdanau团队完成 - 核心动机是解决RNN在长序列翻译中的信息丢失问题 用户可能混淆了"生物学概念提出"与"机器学习机制实现"的区别,因此在回答中特别强调"可计算注意力机制"的范畴,并引用原始论文的标题和公式增强说服力。最后补充的Transformer关联点,既解答当前问题又自然引出后续研究方向。 需要提醒自己:数学公式必须严格按指令用$...$包裹,如$e_{ij}$的计算式。 </think>注意力机制首次提出可追溯至2014年,其核心背景是解决神经机器翻译(NMT)中长序列信息丢失的瓶颈问题。以下是关键信息: --- ### **首次提出的时间与论文** - **时间**:2014年9月(2015年作为ICLR会议论文正式发表) - **论文**: *[Neural Machine Translation by Jointly Learning to Align and Translate](https://arxiv.org/abs/1409.0473)* **作者**:Dzmitry Bahdanau, Kyunghyun Cho, Yoshua Bengio - **核心贡献**:首次将**可学习的注意力机制**(称为"对齐机制")引入序列到序列(Seq2Seq)模型[^1][^2]。 --- ### **提出背景与技术痛点** 1. **传统RNN/LSTM的缺陷**: - 早期NMT模型依赖编码器-解码器框架,编码器将整个输入序列压缩为**单一固定长度向量**。 - 当输入序列较长时(如>30词),模型难以保留全部信息,导致翻译质量显著下降[^2]。 2. **关键洞察**: - 人类翻译时并非一次性记住整个句子,而是**动态聚焦**于当前需翻译词汇的相关上下文。 - 论文提出:"每个解码步应分配不同的注意力权重给输入序列的不同部分"。 3. **技术实现**: - 设计**上下文向量** $c_i$ 动态生成: $$ c_i = \sum_{j=1}^{T} \alpha_{ij} h_j $$ - 权重 $\alpha_{ij}$ 通过注意力评分函数计算: $$ \alpha_{ij} = \frac{\exp(e_{ij})}{\sum_{k=1}^{T} \exp(e_{ik})}, \quad e_{ij} = v_a^T \tanh(W_a s_{i-1} + U_a h_j) $$ 其中 $h_j$ 是编码器隐藏状态,$s_{i-1}$ 是解码器上一时刻状态[^1]。 --- ### **历史意义** 1. **突破性影响**: - 在WMT'14英法翻译任务上,BLEU值超越传统基于短语的统计机器翻译模型。 - 解决了长序列信息丢失问题,为后续注意力机制发展奠定基础[^1][^2]。 2. **后续演进**: - 2015年Luong提出简化版全局/局部注意力[^2] - 2017年Transformer彻底抛弃RNN,依赖自注意力实现飞跃[^2]。 > **本质**:该工作首次将动态权重分配(模拟人类认知聚焦)转化为可计算的神经网络模块[^2]。 --- ###
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值