Effective Approaches to Attention-based Neural Machine Translation 学习笔记

最新推荐文章于 2021-03-10 23:49:36 发布

Doron15

最新推荐文章于 2021-03-10 23:49:36 发布

阅读量1.7k

点赞数

CC 4.0 BY-SA版权

分类专栏：论文笔记文章标签： nlp attention nmt

本文链接：https://blog.youkuaiyun.com/Doron15/article/details/81805347

这篇博客详细介绍了基于Attention的神经机器翻译模型，包括全局和局部Attention机制，以及Input-feeding方法。全局Attention在每个目标单词处考虑所有源单词，而局部Attention只关注源单词的一部分，降低了计算成本。Input-feeding方法使模型能利用过去的对齐信息，提高翻译质量。该文通过实验展示了Attention机制在处理长句子和翻译特定内容（如名字）方面的优势。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Effective Approaches to Attention-based Neural Machine Translation 学习笔记

本文是阅读 Effective Approaches to Attention-based Neural Machine Translation 之后的学习总结，如有不妥之处，烦请各位斧正。

Effective Approaches to Attention-based Neural Machine Translation 学习笔记

0. 概述

这篇论文重在研究基于attention的神经机器翻译模型，测试了两种简单有效的attention机制：
1. 全局方法：总是关注所有的源单词。比前人的方法结构上更简单。
2. 局部方法：每次只关注源单词的一个子集。比全局方法或者soft attention花销要更小，同时与hard attention不同的是，更容易实现和训练。另外，可以在这些基于attention的模型测试不同的对齐函数。
论文中除了在WMT翻译任务中测试英德互译之外，还根据学习能力，处理长句子的能力，attention机制的选择，对齐质量和翻译的输出来对模型进行评估。

1. 神经机器翻译（NMT）

神经机器翻译系统是定向地将翻译源句，就是将x1，……，xn翻译成目标句子，y1，……，ym的条件概率建模的神经网络。NMT的基本形式包含两个组成成分：
1. 编码器：计算得到每个源句的表示。
2. 解码器：每次形成一个目标单词
因此将条件概率分解为：
该图片由原文截取
在解码器的分解建模中，常见的选择就是用RNN。可以参数化每个单词yj解码的概率：