两种特征图self-Attention-block上算法差异的个人见解
本篇纯个人见解,如有错误请指出
文章素材及资料来源
【极市】李夏-语义分割中的自注意力机制和低秩重建[https://www.bilibili.com/video/BV11E411y7Dr]
流程图
左为NonLocal,右为A^2,其中N代表特征图中的像素数目,C代表channel数,HW为高宽,我们都知道C的数量一定是远小于N的数量的,K代表种类
由于矩阵的乘法结合律,这两种算法计算出来的信息是差不多的
对比两个都计算复杂度,左边的复杂度相当于是NNC,右边为NCC
NonLocal
Q与K叉乘
对
原创
2021-09-08 17:18:33 ·
771 阅读 ·
0 评论