
Transformer
文章平均质量分 79
Transformer 源码解读 和 应用
dzm1204
无爱好
展开
-
Transformer架构 VIT
transfomer的输入得是一个序列,我们用transfomer做视觉的时候不能把一整张图片传进去,而是考虑把一张图片分成多个小块,比如下图把图片分成九个小块,按照从左到右,从上到下分别标称序号1,2,3,4,5,6,7,8,9,每个小块还是图片,然后通过Embedding转换成向量,然后通过全连接对这些向量做一个整合。因为我们把分成了9小块图像,这些图像之间也是有位置顺序的,这里也和bert一样加上。原创 2022-11-18 20:07:05 · 1810 阅读 · 0 评论 -
Transformer架构-self-attention(注意力机制原理)
在传统的RNN网络时,x1会用到x0的特征,x2会用到x1的特征,下一步都会用到前一步结果。RNN比较大的问题就是没办法做并行操作。RNN如果使用并行,则它的层数可以增加,速度也可以变快。BERT就是做了**并行机制**。原创 2022-11-17 16:30:54 · 881 阅读 · 0 评论