基于相对位置的自注意力机制------论文研读总结

本文探讨了Transformer模型在处理序列位置信息时的不足,提出相对位置编码方法,通过实验在WMT2014机器翻译任务中展示了性能提升。研究者扩展了Attention机制,考虑元素间的相对位置,改善了GPU处理效率,提高了BLEU评分。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

目录

目录

论文简介与作者

背景(以往缺点与不足)

Transformer模型

缺点

新方法

符号定义与公式

Attention的扩展

相对位置表示法

实验

实验装置

实验数据集

WMT 2014机器翻译任务

GPU处理

实验结果

模型推广

个人总结

备注


论文简介与作者

背景(以往缺点与不足)

不同学者使用不同的方式合并关于元素的顺序位置的信息。

  1. 卷积神经网络固有地捕获每个卷积的内核大小内的相对位置。
  2. RNN在计算隐藏状态ht时,结合其在时间t的输入和先前隐藏状态ht-1的函数直接通过其序列结构捕获沿时间维度沿着的相对和绝对位置。
Transformer模型

既不使用卷积也不使用递归,位置编码,将每个位置用一个向量来表示,然后与元素对应的词向量相加来使得模型可以感知元素地位置信息。

缺点
  1. 没有显式对相对位置建模。
  2. 不一定顺序地考虑输入元素,需要显式地编码位置信息以能够使用序列顺序。

新方法

  1. 提出相对位置编码(Relation-aware):  考虑任意两个元素之间的输入。
  2. 扩展Self-attention机制:  扩展的自注意力机制的Transformer考虑任意两个元素之间的输入

符号定义与公式

Attention的扩展

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值