利用ktransformers框架，本地运行671B DeepSeek-Coder-V3/R1教程。

本文链接：https://blog.youkuaiyun.com/zxinglove999/article/details/145703536

本地 671B DeepSeek-Coder-V3/R1：使用其 Q4_K_M 版本，仅需 14GB VRAM 和 382GB DRAM 即可运行。

支持在单个（24GB 显存）/多个 GPU 和 382GB 内存上运行 DeepseekR1 和 V3，速度提升高达 3~28 倍。

我们在以下配置下进行了最佳性能测试（V0.2）：
CPU: Intel (R) Xeon (R) Gold 6454S 1T 内存 (2 NUMA 节点)
GPU: 4090D 24G 显存
内存: 标准 DDR5-4800 服务器内存 (1 TB)

操作系统ubuntu22

1、准备工作

wget https://hf-mirror.com/hfd/hfd.sh

chmod a+x hfd.sh

export HF_ENDPOINT=https://hf-mirror.com

apt install aria2

2、下载模型Q4量化版本

时间较长，请耐心等待。

./hfd.sh unsloth/DeepSeek-R1-GGUF --include DeepSeek-R1-Q4_K/*

3、编译准备

sudo add-apt-repository ppa:ubuntu-toolchain-r/test

sudo apt-get update

sudo apt-get insta1l--only-upgrade libstdc++6

4、下载框架

git clone https://github.com/kvcache-ai/ktransformers.git

cd ktransformers
git submodule init
git submodule update

5、编译

make dev_install

6、安装必要的依赖

pip install fire

7、运行

numactl -N 1 -m 1 python ./ktransformers/local_chat.py --model_path <your model path> --gguf_path <your gguf path>  --prompt_file <your prompt txt file>  --cpu_infer 33 --max_new_tokens 1000

<your model path> 可以是本地路径，也可以是在线路径，例如 deepseek-ai/DeepSeek-V3。如果在线连接出现问题，可以尝试使用镜像（hf-mirror.com）
<your gguf path> 也可以是在线路径，但由于其体积较大，我们建议您下载并量化模型（注意这是目录路径）
--max_new_tokens 1000 是最大输出 token 长度。如果发现答案被截断，可以增加此数字以获得更长的答案（但要注意内存不足问题，增加此数字会降低生成速度）.
命令 numactl -N 1 -m 1 的目的是避免 NUMA 节点之间的数据传输
注意！如果测试 R1 可能会跳过思考。因此，可以添加参数：--force_think true