不同显卡(GPU)本地运行deepseek-r1效率

原创已于 2025-03-24 19:44:39 修改 · 1w 阅读

·

36

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

于 2025-02-04 12:06:22 首次发布

以下测试均基于 OLLAMA 部署的deekseek

1.ollama运行语句：

ollama run deepseek-r1:14b --verbose

2.询问模型如下问题：

Describe the phenomenon of quantum entanglement and areas of application

注：ollama首次载入时，会把模型尽可能的载入到显存(vram)，显存不足将显著影响运行效率

测试截图：

一、AMD 6800XT (显存:16G 系统:WIN10)

运行结果平均 35token/秒，占用显存（vram） 12G

二、NVIDIA 4060 laptop (显存:8G 系统:WIN11+cuda)

可能是笔记本功耗策略的关系GPU的使用率并不高，所以速度相对较慢

三、NVIDIA 1080ti (显存:11G ubuntu 20.0.4 + cuda)

四、NVIDIA 2080ti (显存:11G ubuntu 20.0.4 + cuda)

五、NVIDIA 3060 (显存:12G 系统:ubuntu 20.0.4 + cuda )

六、NVIDIA 3080 (显存:12G ubuntu 20.0.4 + cuda)

七、NVIDIA 3090 （显存:24G 系统:ubuntu 20.0.4 + cuda ）

八、NVIDIA 4080 (显存:16G ubuntu 20.0.4 + cuda)

九、NVIDIA P100 (显存:16G 系统:ubuntu 20.0.4 + cuda )

十、NVIDIA V100 （显存：16G 系统:ubuntu 20.0.4 + cuda）

十一、NVIDIA A100 （显存：40G 系统:ubuntu 20.0.4 + cuda）

十二、NVIDIA 4090 （显存：24G 系统:win11 + cuda）

另:4090 跑32b 的速度在 37 tokens/s

总结：

序号	显卡型号	显存（G）	eval rate (tokens/s)	参考价(元) （小黄鱼）
1	nvidia 1080ti	11	21.94	1000
2	nvidia 2080ti	11	40.51	1550
3	nvidia 3060	12	27.86	1300
4	nvidia 3080	12	54.42	2300
5	nvidia 3090	24	58.54	5500
6	nvidia 4080	16	47.57	7000
7	amd 6800xt	16	35.62	2500
8	nv tesla p100	16	18.74	1000
9	nv tesla v100	16	49.22	2200
10	nv tesla a100	40	57.60	买不起
11	nvidia 4090	24	73.52	18000

可以看到，如果以大模型应用为目标，显卡并不是越贵越好。

注：参考价为文章发布期间闲鱼的价格，均为单卡PCIE版本！

评论 3

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

查看更多评论

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。