参考资料
https://blog.youkuaiyun.com/weixin_44966641/article/details/118733341
http://jalammar.github.io/illustrated-transformer/
https://www.cnblogs.com/jins-note/p/14815511.html
Transformer结构
Encoder-Decoder
Transformer结构可以表示为Encoder和Decoder两个部分。Encoder和Decoder主要由Self-Attention和Feed-Forward Network两个组件构成,Self-Attention由Scaled Dot-Product Attention和Multi-Head Attention两个组件构成。
Scaled Dot-Product Attention公式:
Multi-Head Attention公式:
Feed-Forward Network公式:
Positional Encoding
对位置编码,加入到Embedding的向量上。
Self Attention
Scaled Dot-Product Attention
Multi-Head Attention
Scaled Dot-Product Attention和Multi-Head Attention都加入了short-cut机制
论文总结
In short
QKV使得attention map计算复杂度和显存使用量呈平方O(n^2)增大,使用SRA对其KV的特征图进行限制
论文原文
公式
图
Self-Attention 使用矩阵点乘进行的余弦相似度计算
QKV是什么
Querys Keys Values