llama decoder流程一图解释及activation空间占用
如图所示,为 llama 中一个llamalayer或一个llamadecoder的计算流程,其中标注了每一个Tensor的shape。5)右下方给出了 activation 的空间占用,及由此推出的 llama 模型在各种情况下的空间占用(中间变量activation)3)灰黄色+斜纹(比如X1,X2等),表示反向计算时需要用到的Tensor(activation)4)其它,表示计算操作,有的操作有权重,有的操作没有权重。1)浅黄色(比如,K,Q,V等),表示计算输出。
原创
2024-02-19 17:18:28 ·
953 阅读 ·
1 评论