【论文阅读笔记】《Attention is All You Need》——Attention机制和Transformer

本文深入探讨了Self-Attention机制,包括其计算过程、优势以及与RNN和CNN的对比。Self-Attention允许并行计算,解决了RNN的序列依赖问题和CNN的感受野限制。Transformer模型利用Self-Attention实现高效信息处理,而位置编码则弥补了序列信息的缺失。Decoder中的Masked Multi-Head Attention确保了自动生成序列的正确性。此外,文章提到了模型优化策略如Guided Attention和Beam Search。

Self-Attention

原理

  • 计算两个向量之间的相关性α

在这里插入图片描述

输入的向量分别乘矩阵Wq和Wk得到q(query)和k(key) 输入的向量分别乘矩阵W^q和W^k得到q(query)和k(key) WqWkq(query)k(key)

相似度α=q⋅k 相似度\alpha =q\cdot k α=qk

在这里插入图片描述



  • Self-attention

在这里插入图片描述

得到相似度α,也就是权重,和每个向量的value相乘再求和得到b1 得到相似度\alpha,也就是权重,和每个向量的value相乘再求和得到b^1 αvalueb1

所谓self,是a1自己也会与自己求一个权重α1,1′ 所谓self,是a^1自己也会与自己求一个权重\alpha ^{'}_{1,1} selfa1α1,1

其他向量也是如此,最终得到一组新的序列b1,b2,b3,b4 其他向量也是如此,最终得到一组新的序列b^1,b^2,b^3,b^4 b1,b2,b3,b4

在这里插入图片描述

所以self−attention相比于RNN有一个好处:它是并行的,b1,b2,b3,b4同时计算出来 所以self-attention相比于RNN有一个好处:它是并行的,b^1,b^2,b^3,b^4同时计算出来 selfattentionRNNb1,b2,b3,b4




  • 从矩阵乘法的角度
  1. 计算q,k,v
    在这里插入图片描述

每一个a都要分别产生q,k,v 每一个a都要分别产生q,k,v a

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值