大小计算公式

LLama  70B(每个参数2个bytes)   80层  32k上下文   8196(hidden dimension)  要求支持10个用户的并发

1、70B(每个参数2个bytes) :70B*2bytes = 70*10的9次方*2 = 131G
2、KV cache(缓存,减少重复计算,加速推理的效果):每个token的显存*token数   每个token占的显存(80层*8196(hidden dimension)*2bytes*KV cache的2个部分)*32k上下文*10个用户=每个token占的显存约2.5M*32000*10=782G
3、activation(激活函数占的空间)/Buffers(中间变量)/Overhead(空间碎片): 按照上述两个值的百分之十估算  (131G+782G)*0.1 = 92G

总的显存大小:131G+782G+92G=1005G

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值