【干货收藏】LLaMA-Factory+KTransformers：超大规模MoE模型微调与推理全流程详解

最新推荐文章于 2025-12-05 08:21:19 发布

原创最新推荐文章于 2025-12-05 08:21:19 发布 · 763 阅读

26 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #AI大模型 #大模型学习 #大模型入门 #大模型教程 #LLamaFactory #大模型微调

部署运行你感兴趣的模型镜像

前言

LLaMA-Factory框架结合KTransformers后端，实现对超大规模混合专家（MoE）模型的高效微调与推理。通过优化的计算架构和内存管理策略，可以显著提升训练和推理效率，为大规模语言模型的部署应用提供技术解决方案。

一、环境配置与安装

系统要求与依赖环境

· Python版本：3.10/3.11/3.12/3.13
· CUDA版本：11.8.0
· 硬件要求：支持AMX指令集的CPU（用于优化计算）

环境安装流程

# 创建conda环境并安装基础依赖  
conda create -n Kllama python=3.12  
conda install -y -c conda-forge libstdcxx-ng gcc\_impl\_linux-64  
conda install -y -c nvidia/label/cuda-11.8.0 cuda-runtime

# 安装LLaMA-Factory框架  
git clone --depth 1 https://github.com/hiyouga/LLaMA-Factory.git  
cd LLaMA-Factory  
pip install -e ".[torch,metrics]" --no-build-isolation  
  
# 安装KTransformers后端（预编译wheel包）  
pip install ktransformers-0.4.1+cu128torch27fancy-cp312-cp312-linux\_x86\_64.whl  
  
# 安装Flash-Attention优化组件

pip install flash\_attn-2.8.3+cu12torch2.7cxx11abiTRUE-cp312-cp312-linux\_x86\_64.whl  
# abi=True/False可以用下面代码查看  
# import torch  
# print(torch.\_C.\_GLIBCXX\_USE\_CXX11\_ABI)

# flash\_infer安装（可选，默认triton）

```Bash
git clone https://github.com/kvcache-ai/custom_flashinfer.git
pip install custom_flashinfer/


二、模型部署与实践  
  
1. 大规模MoE模型微调  
  
通过配置YAML文件启用KTransformers后端，关键配置参数包括：  
  
```yaml  
use\_kt: true  # 启用KTransformers后端  
kt\_optimize\_rule: examples/kt\_optimize\_rules/DeepSeek-V3-Chat-sft-amx-multi-gpu.yaml  
cpu\_infer: 32  
chunk\_size: 8192

注意事项：

· 模型格式要求：必须使用BF16格式模型文件，DeepSeek-V3-671B需通过专用脚本进行FP8到BF16的格式转换（DeepSeek-V3/inference/fp8_cast_bf16.py）

· 优化规则配置：KTransformers提供多种预定义的优化规则文件，针对不同模型架构和硬件配置进行优化
· AMX指令集加速：推荐使用AMX指令集进行微调加速，支持BF16/Int8/Int4精度

执行命令：

USE\_KT=1 llamafactory-cli train examples/train\_lora/deepseek3\_lora\_sft\_kt.yaml

交互式推理对话

微调完成后，可通过以下配置加载原模型与LoRA适配器进行交互式对话：


model\_name\_or\_path: opensourcerelease/DeepSeek-V3-bf16  
adapter\_name\_or\_path: saves/Kllama\_deepseekV3  
template: deepseek  
infer\_backend: ktransformers  
trust\_remote\_code: true  
  
use\_kt: true  
kt\_optimize\_rule: examples/kt\_optimize\_rules/DeepSeek-V3-Chat-sft-amx-multi-gpu.yaml  
cpu\_infer: 32  
chunk\_size: 8192

```plaintext


说明：

infer\_backend:支持[huggingface, vllm, sglang, ktransformers]

执行命令：  
  
```bash  
llamafactory-cli chat examples/inference/deepseek3\_lora\_sft\_kt.yaml

格式支持：

· Safetensors格式：直接指定适配器目录路径
· GGUF格式：指定具体文件路径，系统自动进行权重映射

批量推理与API服务

为实现批量生成和自动化评测，可启动API服务：

model\_name\_or\_path: opensourcerelease/DeepSeek-V3-bf16  
adapter\_name\_or\_path: saves/Kllama\_deepseekV3  
infer\_backend: ktransformers  
use\_kt: true

model\_name\_or\_path: opensourcerelease/DeepSeek-V3-bf16  
adapter\_name\_or\_path: saves/Kllama\_deepseekV3  
template: deepseek  
infer\_backend: ktransformers  
trust\_remote\_code: true  
  
use\_kt: true  
kt\_optimize\_rule: examples/kt\_optimize\_rules/DeepSeek-V3-Chat-sft-amx-multi-gpu.yaml  
cpu\_infer: 32  
chunk\_size: 8192

执行命令：

API\_PORT=8000 llamafactory-cli api examples/inference/deepseek3\_lora\_sft\_kt.yaml

三、性能基准测试

1，端到端性能指标

测试配置：

· Gradient Accumulation Steps (GAS): 16
· 序列长度 (qlen): 512
· 每步处理tokens: 8192
· LoRA配置: r=8, alpha=32, dropout=0.1
· 硬件环境: RTX 4090 GPU + Intel Xeon Platinum 8488C CPU

性能结果：

· DeepSeek-V3-671B: step_time = 203s → 吞吐量 ≈ 40.35 token/s
· DeepSeek-V2-Lite-14B: step_time = 36s → 吞吐量 ≈ 227.6 token/s

2，内存占用分析

· DeepSeek-V3-671B: 显存占用约70GB（多卡总量），内存占用约1.2-1.3TB
· DeepSeek-V2-Lite-14B: 显存占用约5.5GB，内存占用约150GB

最后

为什么要学AI大模型

当下，⼈⼯智能市场迎来了爆发期，并逐渐进⼊以⼈⼯通⽤智能（AGI）为主导的新时代。企业纷纷官宣“ AI+ ”战略，为新兴技术⼈才创造丰富的就业机会，⼈才缺⼝将达 400 万！

DeepSeek问世以来，生成式AI和大模型技术爆发式增长，让很多岗位重新成了炙手可热的新星，岗位薪资远超很多后端岗位，在程序员中稳居前列。

在这里插入图片描述

与此同时AI与各行各业深度融合，飞速发展，成为炙手可热的新风口，企业非常需要了解AI、懂AI、会用AI的员工，纷纷开出高薪招聘AI大模型相关岗位。
在这里插入图片描述
最近很多程序员朋友都已经学习或者准备学习 AI 大模型，后台也经常会有小伙伴咨询学习路线和学习资料，我特别拜托北京清华大学学士和美国加州理工学院博士学位的鲁为民老师给大家这里给大家准备了一份涵盖了AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频 全系列的学习资料，这些学习资料不仅深入浅出，而且非常实用，让大家系统而高效地掌握AI大模型的各个知识点。