Self-attention从Attention的演变过程

Self-attention从Attention的演变过程


  • Self-attention就本质上是一种特殊的attention。这种应用在transformer中最重要的结构之一。
  • 上面我们介绍了attention机制,它能够帮我们找到子序列和全局的attention的关系,也就是找到权重值 wiw_iwi, self-attention对于attention的变化,其实就是寻找权重值wiw_iwi的过程不同。下面,我们来看看self-attention的运算过程。
  • 为了能够产生输出的向量yiy_iyi ,self-attention其实是对所有的输入做了一个加权平均的操作,这个公式和上面的attention是一致的。

在这里插入图片描述

jjj代表整个序列的长度,并且 jjj个权重的相加之和等于1。值得一提的是,这里的 wijw_{ij}wij 并不是一个需要神经网络学习的参数,它是来源于 xix_ixixjx_jxj 的之间的计算的结果(这里wijw_{ij}wij的计算发生了变化)。它们之间最简单的一种计算方式,就是使用点积的方式。


在这里插入图片描述

xix_ixiyiy_iyi是一对输入和输出。对于下一个输出的向量 yi+1y_{i+1}yi+1 ,我们有一个全新的输入序列和一个不同的权重值。


  • 这个点积的输出的取值范围在负无穷和正无穷之间,所以我们要使用一个softmax把它映射到 [0, 1] 之间,并且要确保它们对于整个序列而言的和为1。

在这里插入图片描述

  • 以上这些就是self-attention最基本的操作.
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值