周六上午10点!一起聊聊 KTransformers 在 LLaMA-Factory 与 SGLang 中的部署实战

部署运行你感兴趣的模型镜像

11月22日(周六)上午10点,青稞社区和减论平台将联合趋境科技组织青稞Talk 第91期,并邀请到清华大学计算机系副教授章明星、KTransformers项目核心参与者李沛霖,直播分享《KTransformers,在大模型微调与推理中的系统化实践》。

在当下 LLM 与 MoE 规模急剧增长的背景下,传统 GPU-only 方案面临显存不足、带宽受限等瓶颈。KTransformers 通过 GPU + CPU 异构协同构建了一套高性能、低成本的解决方案,实现了数百B/1T 级模型的本地化微调与部署。

https://github.com/kvcache-ai/ktransformers

本期 Talk 聚焦 KTransformers 在大模型微调与推理中的系统化实践。首先介绍 KTransformers 在微调(LoRA 注入、KT-Optimize、多 GPU 放置)、以及推理(AMX 加速 Prefill、CUDA Graph优化、NUMA并行)中的核心技术。

最后也将展示 KTransformers 在 LLaMA-Factory 与 SGLang 中的端到端使用方法,说明如何以最小成本实现大模型定制与高效部署,为实际科研与工程应用提供个性化设计路径。

分享嘉宾

章明星,清华大学计算机系副教授,KTransformers项目主要指导老师。其主要研究方向为计算机系统机构领域,相关成果在包括OSDI、SOSP、ASPLOS、HPCA、FSE、VLDB、ATC、EuroSys等国际顶级会议和期刊上发表论文二十余篇。曾获ACM SIGSOFT 杰出论文奖,IEEE TCSC、ACM SIGOPS等组织颁发的优秀博士毕业论文奖。获得国家自然科学基金青年科学基金及博士后基金一等项目资助。博士毕业后进入清华大学与深信服联合培养的博士后计划,负责创新业务孵化,担任深信服首席算法技术专家,后任职创新研究院院长。

李沛霖,参与了趋境科技引擎开发,是KTransformers项目核心参与者,微调功能核心技术开发人员。即将进入清华大学计算机系攻读博士学位,曾获国家奖学金等。

主题提纲

KTransformers,在大模型微调与推理中的系统化实践

1、KTransformers 架构解析
2、KTransformers 核心技术
- 微调技术:LoRA 注入、KT-Optimize、多 GPU 放置
- 推理技术:AMX 加速 Prefill、CUDA Graph优化、NUMA并行
3、在 LLaMA-FactorySGLang 中的部署实战

直播时间

11月22日(周六)10:00 - 11:00

如何观看

Talk 将在青稞社区【视频号:青稞AI、Bilibili:青稞AI】上进行进行直播,欢迎交流

您可能感兴趣的与本文相关的镜像

Llama Factory

Llama Factory

模型微调
LLama-Factory

LLaMA Factory 是一个简单易用且高效的大型语言模型(Large Language Model)训练与微调平台。通过 LLaMA Factory,可以在无需编写任何代码的前提下,在本地完成上百种预训练模型的微调

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值