Ktransformers
ktransformers是清华开源的一款专为大模型设计的高效推理服务框架。通过整合多项创新技术,包括优化的 CPU/GPU 异构硬件调度、MoE 模型的稀疏矩阵卸载策略、高效算子优化以及 CUDA Graph 加速等,这一框架显著降低了对硬件的依赖需求,同时显著提升了推理效率。官方给的测试中在 24GB 显存的硬件条件下,ktransformers 已成功实现 DeepSeek R1 671B 4bit 量化模型的部署,且单个实例推理速度可达 14 tokens/秒(截至 2025 年 3 月,仅支持 MoE架构的模型)。
前提信息
- Linux平台下 RTX4090 x 4 +512DRAM,部署4bit量化版
- Ktransformers版本 0.2.1,docker镜像 approachingai/ktransformers:0.2.1(截止20250224 Docker hub中仅有非官方版的0.3.x版本镜像)
- CPU支持avx512指令集(可通过命令 lscpu查看是否支持,信息里面有个Flags参数)
Docker部署
- 官方docker镜像下载(若下载失败,百度下docker镜像源)
docker pull approachingai/ktransformers:0.2.1 - 启动Ktranformers容器
docker run -d --runtime nvidia --network=host --gpus all -v /models:/workspace/models --env "TRANSFORMERS_OFFLINE=0" --env "HF_HUB_OFFLINE=0" --name kt

最低0.47元/天 解锁文章
1854

被折叠的 条评论
为什么被折叠?



