低成本本地部署：4090单卡24G显存运行Deepseek R1 671B满血版

原创

已于 2025-02-20 14:38:37 修改 · 5k 阅读

16 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #python

于 2025-02-20 12:10:59 首次发布

前言

年前Deepseek爆火，由于参数巨大，对于个人研究者、学生党，本地部署主要为一些较小的蒸馏模型，然而，随着清华大学 KVCache.AI 团队推出的 KTransformers 框架，这一局面得到了显著改善，仅需一张 4090 显卡（24GB 显存）和 382GB 内存即可在本地运行Deepseek r1 671B的模型（int4量化版，据测试精度下降在10%以内）。

本地部署

硬件配置

显卡：NVIDIA GeForce RTX 4090 24G

内存：64G * 8 DDR5 4800

cpu：Intel(R) Xeon(R) Gold 6430

环境配置

1，cuda环境，版本需要在12.4以上，官网链接https://developer.nvidia.com/cuda-toolkit-archive：

wget https://developer.download.nvidia.com/compute/cuda/12.6.0/local_installers/cuda_12.6.0_560.28.03_linux.run
sudo sh cuda_12.6.0_560.28.03_linux.run

2，安装conda环境（可选）：