attention与FFN复杂度&模型内存占用估计

zhurui_xiaozhuzaizai

已于 2023-11-24 15:01:30 修改

阅读量2.5k

点赞数 4

分类专栏：自然语言处理文章标签：机器学习深度学习 python

于 2022-10-13 19:41:21 首次发布

原文链接：https://kexue.fm/archives/8610

版权

自然语言处理专栏收录该内容

92 篇文章

订阅专栏

按照定义一个a×b的矩阵乘以一个b×c的矩阵要做abc次乘法，所以abc就是两个矩阵相乘的复杂度了，这是我们估算Transformer复杂度的依据

SA复杂度

设n为序列长度，d为head_size（base版是64），h为head的数目（base版是12），那么hd就是我们通常说的“hidden_size”（base版是768）。
对于SA来说:
Q,K,V的投影变换，即n×hd的矩阵乘以hd×hd的矩阵做3次，因此计算量是3n(hd)²；
h个Attention头的运算，每个头先是n×d的Q与d×n的K^T相乘得到n×n的Attention矩阵（softmax和归一化的计算量暂且忽略），然后n×n的矩阵与n×d的V相乘得到n×d的矩阵，这两步的计算量都是n²d，所以总计算量是h(n²d+n²d)；
输出投影变换，也是n×hd的矩阵乘以hd×hd的矩阵，计算量是n(hd)²
所以，SA的总计算量是
3n(hd)²+h(n²d+n²d)+n(hd)²=4nh²d²+2n²hd

FFN复杂度

FFN就是两个全连接层，也就是两个矩阵变换（激活函数的计算量也忽略不计），一般的参数设置是：第一层是n×hd的矩阵乘以hd×4hd的矩阵，第二层就是n×4hd的矩阵乘以4hd×hd的矩阵。所以总计算量是
n×hd×4hd+n×4hd×hd=8nh²d²

如果SA的计算量比FFN大

4nh²d²+2n²hd > 8nh²d² ==> n>2hd
对于base版来说，这意味着n>1536！也就是说，只有当序列长度超过1536时，SA的计算量才大于FFN，在这之前，都是线性复杂度的FFN占主导

总复杂度

4nh²d²+2n²hd + 8nh²d² = 12nh²d²+2n²hd
它是关于n的一次项和二次项的求和，当n足够大时，复杂度自然是𝒪(n²)，然而二次项占主导的条件是
2n²hd>12nh²d²==> n>6hd
对于base版来说，这意味着n>4608！也就是说，当序列长度接近5000时，Transformer的复杂度才真正体现出二次性！

对于base版来说，当序列长度不超过1536时，Transformer的复杂度都是近乎线性的；
当序列长度超过1536时，Transformer的计算量逐渐以Attention为主，复杂度慢慢趋于二次方，直到长度超过4608，才真正以二次项为主

这些改进工作所关心的序列长度主要都是以千为单位的，有明显计算效率提升的序列长度基本上都要好几千；当然，我们前面的讨论主要针对的还是时间复杂度，对于空间复杂度，也就是显存占用量，降低的幅度一般要比时间复杂度提升的幅度的要大，但总体而言都是长序列才有价值。

怎样计算大模型的内存占用

GLM-130B模型有1300亿个参数。每个参数的大小:通常模型参数存储为32位浮点数
模型大小 = (参数个数)(每个参数大小，单位为字节)
一个32位浮点数占用4个字节的存储空间，因此对于具有1300亿个参数的
GLM-130B模型:模型大小=(130 * 10^9参数)(4字节/参数)模型大小= 520 * 10^9字节
我们带进去计算也就是520 * 10^9字节/ (1024 * 1024 * 1024)≈ 484.5 GB
因此，具有1300亿个参数的GLM-130B模型将占用大约484.5 GB的硬盘空间。