大模型推理：Ktransformers单机Docker部署Deepseek-R1 671B量化版

原创

已于 2025-03-14 12:14:47 修改 · 3.4k 阅读

13 ·

CC 4.0 BY-SA版权

文章标签：

#docker #ktransformers #deepseek #moe #大模型

于 2025-02-24 15:58:46 首次发布

Ktransformers

ktransformers是清华开源的一款专为大模型设计的高效推理服务框架。通过整合多项创新技术，包括优化的 CPU/GPU 异构硬件调度、MoE 模型的稀疏矩阵卸载策略、高效算子优化以及 CUDA Graph 加速等，这一框架显著降低了对硬件的依赖需求，同时显著提升了推理效率。官方给的测试中在 24GB 显存的硬件条件下，ktransformers 已成功实现 DeepSeek R1 671B 4bit 量化模型的部署，且单个实例推理速度可达 14 tokens/秒（截至 2025 年 3 月，仅支持 MoE架构的模型）。

前提信息

Linux平台下 RTX4090 x 4 +512DRAM，部署4bit量化版
Ktransformers版本 0.2.1，docker镜像 approachingai/ktransformers:0.2.1(截止20250224 Docker hub中仅有非官方版的0.3.x版本镜像)
CPU支持avx512指令集（可通过命令 lscpu查看是否支持，信息里面有个Flags参数）

Docker部署

官方docker镜像下载（若下载失败，百度下docker镜像源）
docker pull approachingai/ktransformers:0.2.1
启动Ktranformers容器
docker run -d --runtime nvidia --network=host --gpus all -v /models:/workspace/models --env "TRANSFORMERS_OFFLINE=0" --env "HF_HUB_OFFLINE=0" --name kt