Vision-Transformer详解

引言(Transformer)

在这里插入图片描述

  • transformer一开始提出为上面这篇论文,主要应用在NLP领域。
  • 在此之前,nlp主要使用RNN(记忆的长度是有限的,比较短,所以有了后面的LSTM),LSTM等时序网络, 且无法并行化训练(即必须先计算出t0时刻的数据,再计算t1时刻的数据),导致训练效率低。
  • 所以提出transformer,如果在硬件不受限制的情况下,他的记忆长度是无限的。而且可以做并行化。

核心模块:self-attention

在这里插入图片描述

  • 计算q,k,v在这里插入图片描述
  • 对(q*k) / np.sqrt(d)得到的a进行softmax在这里插入图片描述在这里插入图片描述
  • 用上面得到的a乘以v,如右下角的矩阵乘法所示:在这里插入图片描述
  • 多个head情况下(相当于cnn中的group卷积):
    在这里插入图片描述在这里插入图片描述在这里插入图片描述
  • 对concat后的矩阵进行融合在这里插入图片描述
  • 位置编码的必要性(因为如果把后面的顺序打乱,不会影响前面的输出,不合理,应该全局编码,每个位置变动都会影响到其他任意位置):在这里插入图片描述
    在这里插入图片描述

Vision-Transformer

在这里插入图片描述
在这里插入图片描述

  • 增加一个class的token是参考的BERT网络
    在这里插入图片描述
    位置编码带来的提升:
    在这里插入图片描述
    用每个位置的编码与其他位置的编码求余弦相似度如图:
    在这里插入图片描述
  • Transformer Encoder
    在这里插入图片描述
    LayerNormal可参考:https://zhuanlan.zhihu.com/p/54530247
  • 一个encoder block包括一个multi-head和MLP
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

参考:
bilibli霹雳吧啦Wz

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Shashank497

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值