【KeyarchOS:KOS操作系统】一文搞定 Ktransformers-AMX 大模型部署：核心步骤 + 常见问题解决

最新推荐文章于 2025-09-24 19:01:30 发布

原创最新推荐文章于 2025-09-24 19:01:30 发布 · 961 阅读

·

24

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#服务器 #linux

软件兼容性专栏收录该内容

287 篇文章

订阅专栏

部署运行你感兴趣的模型镜像

目录

5 启动大模型

6 配置chatbox

1 前言

浪潮信息KOS是浪潮信息基于Linux Kernel、OpenAnolis等开源技术自主研发的一款服务器操作系统，支持x86、ARM等主流架构处理器，性能和稳定性居于行业领先地位，具备成熟的 CentOS 迁移和替换能力，可满足云计算、大数据、分布式存储、人工智能、边缘计算等应用场景需求。详细介绍见官网链接：

https://www.ieisystem.com/kos/product-kos-xq.thtml?id=12126

ktransformers 是一个专为大语言模型优化的高性能推理框架，致力于在异构硬件环境（CPU+GPU）上实现高效、灵活的模型部署。该框架通过自定义算子、内存优化和设备调度，显著提升大模型的推理性能，尤其将专家计算卸载到CPU并利用intel的AMX特性使得其更加适合需要低延迟或资源受限的场景。

本篇文章主要介绍如何在KOS操作系统上部署ktransformers以及进行基准性能测试和AMX性能测试。

2 环境

系统环境

操作系统：KOS 5.8SP2U1

GPU：NVIDIA GeForce RTX 4090

CPU：Intel(R) Xeon(R) Gold 5418Y

Cuda：12.8

GPU dirver：570.86.15

部署方案：采用docker镜像部署

首先要确认CPU是否支持AMX特性

Docker镜像

拉取docker images

docker pull nvidia/cuda:12.8.0-devel-ubuntu22.04

启动docker

3 编译

一键部署

进入容器：docker exec –it ubuntu22.04-cuda-12.8 bash
拉取一键部署脚本：
git clone https://github.com/maaaxinfinity/ktrun.git
注：该脚本会自动下载编译依赖包和更新子模块源码
编译KT：

cd ktrun

bash run.sh

待上述脚本执行完毕后进入ktransformers安装目录，重新执行以下命令

MAX_JOBS=56 USE_BALANCE_SERVE=1 bash ./install.sh

备注：

Ktransformers源码：https://github.com/kvcache-ai/ktransformers.git

Branch： main

Comit：90888fee0d424763e4069f5c81dd26e4012ed085

4 测试

测试模型：Qwen3-30B-A3B-GGUF/BF16

测试工具：chatbox

5 启动大模型

备注：

--cpu_infer：启用的CPU核数，根据实际填写，必须大于等于2

--backend_type：后端类型，目前只有balance_serve能跑AMX

6 配置chatbox

设置->模型提供方->添加

名称：自定义

API模式：OpenAI API兼容

API主机：填写提供模型服务地址以及端口

模型：点击新建，填写模型名称，与模型启动--model_name指定名称相同

新建对话->输入问题可以看到正常运行

7 性能测试

测试工具：双击以下html设置相应的参数后点击开始测试

启用AMXBF16：配置文件采用Qwen3Moe-serve-amx.yaml

启用llamafile：配置文件采用Qwen3Moe-serve.yaml或者直接修改Qwen3Moe-serve-amx.yaml文件中的backend为"llamafile"

通过以上数据对比可以明显看到在相同参数配置下AMXBF16推理性能提升大约2~3倍。

8 常见问题

TBB

解决：缺少TBB开发包
apt install libtbb-dev

GLIBCXX_3.4.29' not found

解决：更新glib，命令：conda install -c conda-forge libstdcxx-ng -y

您可能感兴趣的与本文相关的镜像

Wan2.2-I2V-A14B

Wan2.2-I2V-A14B

图生视频

Wan2.2

Wan2.2是由通义万相开源高效文本到视频生成模型，是有50亿参数的轻量级视频生成模型，专为快速内容创作优化。支持480P视频生成，具备优秀的时序连贯性和运动推理能力

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。