低成本本地部署:4090单卡24G显存运行Deepseek R1 671B满血版

前言

年前Deepseek爆火,由于参数巨大,对于个人研究者、学生党,本地部署主要为一些较小的蒸馏模型,然而,随着清华大学 KVCache.AI 团队推出的 KTransformers 框架,这一局面得到了显著改善,仅需一张 4090 显卡(24GB 显存)和 382GB 内存即可在本地运行Deepseek r1 671B的模型(int4量化版,据测试精度下降在10%以内)。

本地部署

硬件配置

显卡:NVIDIA GeForce RTX 4090 24G

内存:64G * 8 DDR5 4800

cpu:Intel(R) Xeon(R) Gold 6430

环境配置

1,cuda环境,版本需要在12.4以上,官网链接https://developer.nvidia.com/cuda-toolkit-archive

wget https://developer.download.nvidia.com/compute/cuda/12.6.0/local_installers/cuda_12.6.0_560.28.03_linux.run
sudo sh cuda_12.6.0_560.28.03_linux.run

2, 安装conda环境(可选):

wget https://mirrors.tuna.tsinghua.edu.cn/anaconda/miniconda/Miniconda3-py310_24.11.1-0-Linux-x86_64.sh
bash ./Miniconda3-py310_24.11.1-0-Linux-x86_64.sh
conda create --name ktransformers python=3.11
conda activate ktransformers

3,安装必要依赖:

sudo apt-get update && sudo apt-get install gcc g++ cmake ninja-build

4,安装ktransformer:

## flash_attn安装
pip install flash_attn -i https://mirrors.aliyun.com/pypi/simple/
## ktransformer使用源码安装
git clone https://github.com/kvcache-ai/ktransformers.git
cd ktransformers
## 拉取子模块代码
git submodule init
git submodule update
## 运行编译脚本
bash install.sh

tips:下载速度过慢可以在编译脚本里(install.sh)指定为国内源

模型下载

模型文件是 deepseek-r1:671b 的 Q4_K_M 量化版。由于模型文件过大,所以下载速度比较慢。

使用 modelscope 下载

官网地址:https://www.modelscope.cn/models

pip install modelscope
modelscope download --model unsloth/DeepSeek-R1-GGUF --local_dir /path/to/models --include DeepSeek-R1-Q4_K_M-* --max-workers 108

命令参数解释:

model:是指定魔塔社区上的模型项目

local_dir:是指定文件的下载路径(路径不存在会自动创建)

include:是指定下载文件(其中 DeepSeek-R1-Q4_K_M-* 是匹配所有前缀为 DeepSeek-R1-Q4_K_M-的文件)

max-workers:是指定下载文件建立的连接数(一般该值设置为 CPU 核心数减 2 即可。本机 CPU 核心数为 112,这里指定 108,该值越大下载越快)。

模型运行 

进入配置好的conda环境之后,执行命令

python -m ktransformers.local_chat --model_path deepseek-ai/DeepSeek-R1 --gguf_path /path/to/model --cpu_infer 48 --force_think true --max_new_tokens 128

命令参数解释:

model_path :魔搭项目路径,用于远程拉取必要的json文件

gguf_path :下载的 gguf 模型文件所在的路径

cpu_infer:用于推理的 CPU 核心数,本机的 CPU 核心数是 64,这里设置 48,cpu_infer 默认值是 10,10 个核心数推理速度较慢,可以适当增加,但是不要超过 CPU 核心数减 2。force_think:设置为 true 才能够看到模型的思考过程,否则默认是不输出模型的思考过程的。

max_new_tokens:需要生成的tokens数量

模型初次加载大约需要 10 分钟,模型将被载入内存的 buff/cache 中,如果内存不够,模型是无法被成功运行的,最终运行效果如下:

### deepseek r1 14b 模型本地部署硬件和软件要求 #### 硬件要求 对于 `deepseek-r1` 的14B参数本,为了确保模型能够高效运行并提供良好的性能体验,建议具备一定配置的GPU设备。例如,使用NVIDIA RTX 4070S显卡可以满足该模型的需求[^1]。 - **GPU**: 推荐至少拥有24GB VRAM以上的图形处理器单元(Graphics Processing Unit),如RTX 3090及以上级别产品更为理想。 - **CPU**: 高性能多核中央处理单元(Central Processing Unit),比如Intel i9系列或AMD Ryzen Threadripper等高性能桌面级处理器。 - **内存(RAM)**: 至少64 GB DDR4 RAM,以便于应对大规模数据集加载以及程序运行过程中产生的临时文件缓存需求。 - **存储空间**: SSD固态硬盘作为主要储存介质,预留不少于500GB可用容量用于安装操作系统、依赖库及相关工具链;另外还需要额外准备足够的外部磁盘来保存训练好的权重和其他资源文件。 #### 软件环境搭建指南 针对Windows操作系统的用户来说,可以通过命令提示符(Command Prompt) 或者 PowerShell 来完成必要的准备工作: 1. 安装最新Python解释器(通常为 Python 3.x 本), 并将其加入到系统路径中; 2. 利用pip包管理工具获取所需的各种第三方扩展模块, 如 PyTorch框架及其CUDA加速组件; 3. 下载对应平台预编译好的Ollama二进制文件,并按照官方文档指示设置好相应的环境变量; 4. 执行特定指令启动服务端口监听等待客户端连接请求: ```bash ollama run deepseek-r1:14b ``` 上述命令将会依据当前机器状况自动调整最优参数组合以适应不同类型的硬件条件。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值