【KeyarchOS:KOS操作系统】一文搞定 Ktransformers-AMX 大模型部署:核心步骤 + 常见问题解决

目录

1 前言

2 环境

3 编译

4 测试

5 启动大模型

6 配置chatbox

7 性能测试

8 常见问题


1 前言

浪潮信息KOS是浪潮信息基于Linux Kernel、OpenAnolis等开源技术自主研发的一款服务器操作系统,支持x86、ARM等主流架构处理器,性能和稳定性居于行业领先地位,具备成熟的 CentOS 迁移和替换能力,可满足云计算、大数据、分布式存储、人工智能、边缘计算等应用场景需求。详细介绍见官网链接:

https://www.ieisystem.com/kos/product-kos-xq.thtml?id=12126

ktransformers 是一个专为大语言模型优化的高性能推理框架,致力于在异构硬件环境(CPU+GPU)上实现高效、灵活的模型部署。该框架通过自定义算子、内存优化和设备调度,显著提升大模型的推理性能,尤其将专家计算卸载到CPU并利用intel的AMX特性使得其更加适合需要低延迟或资源受限的场景。

本篇文章主要介绍如何在KOS操作系统上部署ktransformers以及进行基准性能测试和AMX性能测试。

2 环境

系统环境

操作系统:KOS 5.8SP2U1

GPU:NVIDIA GeForce RTX 4090

CPU:Intel(R) Xeon(R) Gold 5418Y

Cuda:12.8

GPU dirver:570.86.15

部署方案:采用docker镜像部署

首先要确认CPU是否支持AMX特性

Docker镜像

拉取docker images

docker pull nvidia/cuda:12.8.0-devel-ubuntu22.04

启动docker

3 编译

一键部署

  • 进入容器:docker exec –it ubuntu22.04-cuda-12.8 bash
  • 拉取一键部署脚本:
    git clone https://github.com/maaaxinfinity/ktrun.git
    注:该脚本会自动下载编译依赖包和更新子模块源码
  • 编译KT:

cd ktrun

bash run.sh

待上述脚本执行完毕后进入ktransformers安装目录,重新执行以下命令

MAX_JOBS=56 USE_BALANCE_SERVE=1 bash ./install.sh

备注:

Ktransformers源码:https://github.com/kvcache-ai/ktransformers.git

Branch: main

Comit:90888fee0d424763e4069f5c81dd26e4012ed085

4 测试

测试模型:Qwen3-30B-A3B-GGUF/BF16

测试工具:chatbox

5 启动大模型

备注:

--cpu_infer:启用的CPU核数,根据实际填写,必须大于等于2

--backend_type:后端类型,目前只有balance_serve能跑AMX

6 配置chatbox

设置->模型提供方->添加

名称:自定义

API模式:OpenAI API兼容

API主机:填写提供模型服务地址以及端口

模型:点击新建,填写模型名称,与模型启动--model_name指定名称相同

新建对话->输入问题可以看到正常运行

7 性能测试

测试工具:双击以下html设置相应的参数后点击开始测试

启用AMXBF16:配置文件采用Qwen3Moe-serve-amx.yaml

启用llamafile:配置文件采用Qwen3Moe-serve.yaml或者直接修改Qwen3Moe-serve-amx.yaml文件中的backend为"llamafile"

通过以上数据对比可以明显看到在相同参数配置下AMXBF16推理性能提升大约2~3倍。

8 常见问题

  • TBB


解决:缺少TBB开发包
apt install libtbb-dev

  • GLIBCXX_3.4.29' not found

解决:更新glib,命令:conda install -c conda-forge libstdcxx-ng -y

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值