近日,CSGHub集成了 KTransformers框架,为开发者提供了一种超低成本的大模型推理方案,使AI模型能够在低端硬件上高效运行,而无需依赖昂贵的高端GPU资源。
KTransformers 推理引擎

KTransformers 是由清华大学 KVCache.AI 团队与 APPROACHING.AI 合作开发的开源项目,专注于为研究者和开发者提供本地部署的解决方案。 它旨在降低大模型推理的资源占用,提升易用性,并提供本地推理友好的环境,让大模型推理更轻量。KTransformers 兼容 Hugging Face Transformers API,并支持 OpenAI 和 Ollama 等标准 RESTful API,这使得开发者能够在消费级硬件上轻松运行大语言模型,而无需高端 GPU 集群或昂贵的云端服务。
技术案例展示
本地671B DeepSeek-Coder-V3/R1高效推理:仅使用14GB VRAM和382GB DRAM量化版部署Q4_K_M版本。
硬件需求:
-
- 显存(VRAM):14GB
- 内存(DRAM):382GB
- 部署环境:支持桌面级硬件(无需 GPU 集群)
性能基准测试
| 指标 | KTransformers 性能(tokens/s) | 对比基线(llama.cpp 2×32核) | 加速倍数 |
| 预填充速度 | 54.21(32核) → 74.36(双路 2×32核) → **286.55**(V0.3 AMX优化) | 10.31 | 27.79× |
| 解码速度 | 8.73(32核) → 11.26(双路 2×32核) → **13.69**(V0.3 专家选择) | 4.51 | 3.03× |
KTransformers 的解码速度比 llama.cpp 提升高达 3.03

最低0.47元/天 解锁文章
451

被折叠的 条评论
为什么被折叠?



