attention
伟璇
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
《Interactive Attention for NMT》和《Multi-channel Encoder for NMT》(受神经图灵机启发)
《Interactive Attention for Neural Machine Translation》(COLING 2016)与《Multi-channel Encoder for Neural Machine Translation》(AAAI 2018)类似,都是将神经图灵机与NTM结合在一起,通过“读写”机制不断地更新输入序列的隐藏层状态,完成翻译过程与输入序列的表示之间信息的交互。...原创 2019-03-21 10:22:05 · 722 阅读 · 0 评论 -
《Decoding-History-Based Adaptive Control of Attention for Neural Machine Translation》
神经机器翻译不考虑包括解码器中的过去信息和注意机制的解码历史的注意力,这样会经常引起很多重复翻译。思路:适应性注意力控制(ACA)学习通过用记忆向量跟踪解码历史和当前信息来控制注意力,以便模型可以考虑翻译的内容和当前信息。在原始模型上添加了一个记忆向量,利用解码器输出的历史信息和注意力机制的上下文向量,更新记忆向量,并将记忆向量用用计算隐藏层的输出中。该机制基于解码历史来控制注意力的输出,包括...原创 2019-03-21 10:19:34 · 268 阅读 · 0 评论 -
《Accelerating Neural Transformer via an Average Attention Network》
背景:tranformer非常吸引人,因为它有非常大的优势。首先它使用的是attention,这个机制是完全并行的,所以它的训练非常快。另外,attention这个机制计算的时候可以考虑整个句子级别的信息,通过给每一词分一个权重,可以捕捉长距离依赖、信息流的流动,所以它性能非常好。但是它也有劣势,在于它的解码端,目前transformer还是依赖于Beam search的解码方式。Beamsear...原创 2019-03-21 10:19:39 · 1093 阅读 · 0 评论 -
《Neural Machine Translation with Decoding-History Enhanced Attention》
背景:普通的NMT没有考虑解码历史思路:解码时候考虑了解码历史,在源端和目标端同时使用注意力机制,之前只使用源端注意力机制,得到的上下文向量只与encoder隐藏层状态相关。这篇论文在目标端也添加了一个注意力机制,计算了decoder的上下文向量,也就是当前时刻隐藏层状态和前一层隐藏层状态之间的联系。然后提出三种方法将这两个上下文向量结合在一起作为最终上下文向量,用于计算当前层当前时刻的隐藏层...原创 2019-03-21 10:19:26 · 311 阅读 · 0 评论 -
《Attentive Language Models》
背景:语言模型LM通过将由每个预测步骤生成的信息整合到用于下一预测的上下文中来顺序地向前传播上下文向量。 这种信息向前传播的一个后果是,当新信息被整合到上下文中时,旧信息往往会从上下文中消失,也就是无法处理长距离依赖。第二个问题是上下文可以由更新的信息支配,所以当RNN-LM确实出错时,这个错误可以向前传播,导致序列的其余部分出现级联错误。思路:在输出当前时刻的单词时,得到隐藏层状态后,通过计...原创 2019-03-21 10:19:57 · 244 阅读 · 0 评论 -
《Sparse and Constrained Attention for Neural Machine Translation》
背景:在NMT中,单词有时会从源中删除或在翻译中重复生成。思路:普通的注意力计算中,在得到每个时间步隐藏层状态的分数后,对其softmax归一化处理得到权重值。sparsemax:在源语句单词上的稀疏,计算时只考虑一些单词,其余单词的概率为0。constrained softmax:在时间步上的稀疏,返回一个接近sofrmax(z)的分布,注意力概率受限于上界值,本文将这两个稀疏结合在一起,产...原创 2019-03-21 10:20:03 · 680 阅读 · 1 评论 -
《Training Deeper Neural Machine Translation Models with Transparent Attention》
背景:尽管深层模型很明显是一条康庄大道,但这方面的研究通常受限于计算能力的约束。此外,深层模型常常受到梯度消失或爆炸等训练问题的困扰。思路:提出了一种注意力机制的扩展,类似于创建沿着编码器深度的加权残差连接,这使得误差信号可以同时沿着编码器层和时间进行传播。使用可训练权重,这一「透明」注意力可使模型根据训练阶段灵活调节编码器中不同层的梯度流。之前的注意力计算都是只计算encoder的最后一层,...原创 2019-03-21 10:20:08 · 539 阅读 · 1 评论 -
《Attention-via-Attention Neural Machine Translation》
背景:由于许多语言源于共同的祖先语言并且相互影响,因此这些语言之间不可避免地存在相似性,例如词汇相似性和命名实体相似性。思路:引入了一种注意力通过注意机制,它允许源侧角色的信息直接流向目标侧。 利用这种机制,当单词相似时,将基于源端字母的表示生成目标端字母。从而避免了字典的使用。思路:首先字母级别的encoder处理源语句中的字母,根据语句中的空格,使用单词级别encoder处理源语句中的...原创 2019-03-21 10:20:14 · 400 阅读 · 0 评论 -
《Neural Machine Translation with Key-Value Memory-Augmented Attention》(IJCAI 2018)
问题:重复翻译,漏译问题,传统基于注意力的NMT不能有效追踪注意力历史,导致decoder会忽略历史的注意力信息解决方法:一个及时更新的key-memory来跟踪注意力历史,一个固定的value-memory来存储翻译过程中源语句的表示。通过两个存储器之间的非平凡变换和迭代交互,解码器关注于更合适的源端单词,用于在每个解码步骤预测下一个目标单词,因此可以提高翻译的充分性。思路:首先利用d...原创 2019-03-21 10:20:36 · 589 阅读 · 1 评论 -
《Fine-Grained Attention Mechanism for Neural Machine Translation》
背景:之前的注意力机制是一个encoder的隐藏层状态对应一个分数,然后对所有所有隐藏层状态加权求和得到上下文向量。这篇论文中实现了每一个隐藏层状态对应和其维度一样多的注意力分数,使得每一个维度都拥有独立的注意力分数。普通的注意力计算:细粒度注意力机制:其中是时间步,d维第t个隐藏层状态的分数。是一个全连接神经网络,输出结点的数量为d...原创 2019-03-21 10:19:18 · 322 阅读 · 0 评论
分享