如何理解Transformer中的Q,K,V以及Mask[补充深度学习中的FLOPs是什么?如何计算] 文章目录 一. 如何理解attention中的Q,K,V? 1.1. 定义三个线性变换矩阵 1.2. 定义QKV 1.3. 自注意力计算 1.3.1. Q和K矩阵乘 1.3.2. 除以根号dim 1.3.3. 注意力权重和V矩阵乘 1.4. 为什么叫自注意力网络 1.5. 为什么注意力机制是没有位置信息 二. 如何理解Transformer中的mask? 2.1. Attention Mask(防止标签泄露) 2.2. Padding Mask(处理非定长序列) 三. decoder里面的K,V输入用的是encoder的输出 四. 补充torch.max()和torch.topk() 五. 深度学习中的FLOPs是什么?如何计算? 5.1. 区分FLOPs和FLOPS 5.2. 计算方法 5.2.1 卷积层 5.2.2. 全连接层 六. 参考文章 可以先看下之前的文章:『NLP学习笔记』Transformer技术详细介绍 深度学习-图解Transformer (变