不同显卡(GPU)本地运行deepseek-r1效率

以下测试均基于 OLLAMA 部署的deekseek

1.ollama运行语句:

        ollama run deepseek-r1:14b --verbose

2.询问模型如下问题:

        Describe the phenomenon of quantum entanglement and areas of application 

注:ollama首次载入时,会把模型尽可能的载入到显存(vram),显存不足将显著影响运行效率 

测试截图: 

一、AMD 6800XT (显存:16G 系统:WIN10)

        运行结果 平均 35token/秒,占用显存(vram) 12G

二、NVIDIA 4060 laptop (显存:8G 系统:WIN11+cuda)

        可能是笔记本功耗策略的关系GPU的使用率并不高,所以速度相对较慢

三、NVIDIA 1080ti (显存:11G ubuntu 20.0.4 + cuda)

四、NVIDIA 2080ti (显存:11G ubuntu 20.0.4 + cuda)

 五、NVIDIA 3060 (显存:12G 系统:ubuntu 20.0.4 + cuda )

六、NVIDIA 3080 (显存:12G ubuntu 20.0.4 + cuda)

七、NVIDIA 3090 (显存:24G 系统:ubuntu 20.0.4 + cuda )

八、NVIDIA 4080  (显存:16G ubuntu 20.0.4 + cuda)

九、NVIDIA P100 (显存:16G 系统:ubuntu 20.0.4 + cuda )

 

十、NVIDIA V100 (显存:16G 系统:ubuntu 20.0.4 + cuda)

十一、NVIDIA  A100 (显存:40G 系统:ubuntu 20.0.4 + cuda)

十二、NVIDIA  4090 (显存:24G 系统:win11 + cuda)

另:4090 跑32b 的速度在 37 tokens/s

总结: 

序号显卡型号显存(G)

eval rate

(tokens/s)

参考价(元)

(小黄鱼)

1nvidia 1080ti1121.941000
2nvidia 2080ti1140.511550
3nvidia 30601227.861300
4nvidia 30801254.422300
5nvidia 30902458.545500
6nvidia 40801647.577000
7amd 6800xt1635.622500
8nv tesla p1001618.741000
9nv tesla v1001649.222200
10 nv tesla a1004057.60买不起
11 nvidia 40902473.5218000

                     可以看到,如果以大模型应用为目标,显卡并不是越贵越好。

注:参考价为文章发布期间闲鱼的价格,均为单卡PCIE版本!

评论 3
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值