LLama 70B(每个参数2个bytes) 80层 32k上下文 8196(hidden dimension) 要求支持10个用户的并发
1、70B(每个参数2个bytes) :70B*2bytes = 70*10的9次方*2 = 131G
2、KV cache(缓存,减少重复计算,加速推理的效果):每个token的显存*token数 每个token占的显存(80层*8196(hidden dimension)*2bytes*KV cache的2个部分)*32k上下文*10个用户=每个token占的显存约2.5M*32000*10=782G
3、activation(激活函数占的空间)/Buffers(中间变量)/Overhead(空间碎片): 按照上述两个值的百分之十估算 (131G+782G)*0.1 = 92G
总的显存大小:131G+782G+92G=1005G
1万+

被折叠的 条评论
为什么被折叠?



