前言
年前Deepseek爆火,由于参数巨大,对于个人研究者、学生党,本地部署主要为一些较小的蒸馏模型,然而,随着清华大学 KVCache.AI 团队推出的 KTransformers 框架,这一局面得到了显著改善,仅需一张 4090 显卡(24GB 显存)和 382GB 内存即可在本地运行Deepseek r1 671B的模型(int4量化版,据测试精度下降在10%以内)。
本地部署
硬件配置
显卡:NVIDIA GeForce RTX 4090 24G
内存:64G * 8 DDR5 4800
cpu:Intel(R) Xeon(R) Gold 6430
环境配置
1,cuda环境,版本需要在12.4以上,官网链接https://developer.nvidia.com/cuda-toolkit-archive:
wget https://developer.download.nvidia.com/compute/cuda/12.6.0/local_installers/cuda_12.6.0_560.28.03_linux.run
sudo sh cuda_12.6.0_560.28.03_linux.run
2, 安装conda环境(可选):