机器翻译首次引入注意力机制-ALIGN AND TRANSLATE

AI强仔

于 2021-01-17 23:18:11 发布

阅读量683

点赞数 2

分类专栏： NLP 人工智能 Attention

人工智能同时被 3 个专栏收录

151 篇文章

订阅专栏

51 篇文章

订阅专栏

6 篇文章

订阅专栏

1 简介

本文首次在机器翻译中引入注意力机制。本文根据2015年《NEURAL MACHINE TRANSLATION BY JOINTLY LEARNING TO ALIGN AND TRANSLATE》翻译总结。看文章的标题，可以知道该模型改善了align（源语句与目标翻译语句的对齐），引入注意力机制进行align。

在本文之前，已经出现encoder-decoder神经网络进行机器翻译，不像以前传统的phrase-based translation system（2003），该神经网络尝试建立一个单独的、大的神经网络，直接读一个句子，然后输出正确的翻译。

encoder-decoder方法作为一种神经网络，需要将源语句的所有必要信息压缩到一个固定长度的向量。这就会导致该模型很难处理长的句子，尤其是当语句比训练时的还长时。

为此，我们扩展了encoder-decoder模型，取名RNNsearch，可以联合学习对齐和翻译。模型预测一个目标单词时，会基于和源位置相关的上下文向量，以及所有前面已预测的目标单词。

本模型和以前模型的最大区别是它不再尝试将整个输入语句编码成一个单独的固定长度的向量。它将输入语句编码成一系列向量，当解码时会自适应的选择其中的一部分向量。

本模型可以很好的处理长语句的翻译。首次引入了注意力机制。

2 标准RNN ENCODER–DECODER

在这里插入图片描述

在这里插入图片描述

3 本文模型，对齐和翻译

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

4.实验结果

RNNencdec代表以前的模型，RNNsearch是我们的模型。30、50代表训练时采用的句子长度。可以看到RNNsearch取得了很好效果，甚至RNNsearch-30都好于RNNencdec-50.
Moses是传统的 phrase-based translation system (Moses)，非神经网络模型。

在这里插入图片描述

下图可以看出来我们的模型对于长句子可以处理的更好，尤其是RNNsearch-50.

在这里插入图片描述

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。