SGLang AI 金融 π 对（杭州站）回顾：大模型推理的工程实践全景

原创于 2025-12-22 09:34:23 发布 · 420 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#sglang #人工智能 #金融

开源资讯同时被 3 个专栏收录

140 篇文章

订阅专栏

开源活动

122 篇文章

订阅专栏

AtomGit

39 篇文章

订阅专栏

12 月 20 日，SGLang AI 金融 π 对（杭州站）在杭州紫金港美居酒店成功举办。本次 Meetup 由 SGLang 与 AtomGit 社区联合发起，聚焦大模型在金融与复杂业务场景下的推理效率问题，吸引了大量来自 AI Infra、推理系统、金融科技与系统工程方向的开发者与工程师参与。

活动开场，华为高级项目群总监薛曜为本次 Meetup 做了开场致辞。他表示，非常高兴能在杭州与来自各地的开发者和工程师们相聚，共同探讨大模型在金融与复杂业务场景下的前沿应用。随着 AI 与金融科技的深度融合，推理效率与工程实践的重要性日益凸显，希望大家在本次活动中能收获前沿技术洞察，同时建立更多跨领域的交流与合作。

薛曜华为高级项目群总监

下一代推理系统，正在被重新设计

随着 DeepSeek-V3、Qwen-Next 等新一代模型，以及 Agent 和混合模型架构越来越普及，传统推理系统的内存与缓存面临挑战。活动第一部分，SGLang 开发者黄章衡带来了一场干货满满的分享——《面向智能体和混合模型的 KVCache 新范式》。

并介绍两大创新：

HiCache：GPU → 主机 →分布式三级缓存，优化 SparseAttention 分层管理；
Hybrid Cache：混合模型缓存，支持 Full Attention、SWA、Mamba 等机制，覆盖主流模型。

黄章衡 SGLang 核心开发者

这场分享让大家直观理解了 Agent 和混合模型时代推理系统的结构性变化，也为后续的技术讨论打下了基础。

直击 RL 训练的工程难题：权重如何快速更新

在强化学习（RL）与大规模推理服务中，模型权重的频繁更新与加载往往是效率的隐形杀手。

SGLang 开发者尚旭春在《Checkpoint Engine：加速 SGLang 的权重热更新与冷启动效率》中，拆解了这一长期存在却少被系统讨论的工程问题，介绍了面向 LLM 的轻量级权重更新中间件 Checkpoint Engine，重点分享了基于共享内存（IPC）与 Zero-Copy 的秒级权重热更新机制，以及 Broadcast / P2P 传输模式在多节点场景下对冷启动和弹性扩缩容效率的显著优化，并结合 RL 训练实践，说明了如何有效缩短推理等待时间，为高频 RL 迭代提供了可复用的工程解法。

尚旭春 SGLang 开发者

金融 Agentic RL 的真实工程实践

随后，华为小巧灵突击队工程师荆升航分享了金融 Agentic RL 场景下 SGLang 在强化学习推理中的工程实践，重点围绕确定性计算、多轮对话优化策略，以及weight resharding与内存使用优化。这一议题从真实业务约束出发，展示了 SGLang 在金融 Agentic RL 场景中的可行路径，也让“RL 推理系统如何落地”变得更加具体。

荆升航华为小巧灵突击队工程师

昇腾上的推理实践：软硬协同的真实路径

在下半场，昇腾高级研发工程师镇亮带来了《SGLang on Ascend：大模型推理高效实践》分享，介绍了 SGLang 在昇腾平台上的使用与优化实践，并围绕 DeepSeek / Qwen 等模型总结了关键推理优化经验，同时分享了 SGLang-Diffusion 在昇腾上的探索性实践。从算力平台视角补齐了异构环境下的工程细节，展示了框架与算力协同优化的真实落地路径。

镇亮昇腾高级研发工程师

框架 × 模型：GLM 生态的协同演进

GLM 技术布道师张昱轩分享了《SGLang 与 GLM 模型的生态建设》。围绕模型规模扩大与 MoE 架构带来的推理挑战，介绍了 GLM 在 SGLang 上的高效部署实践、PD 分离等工程方案，以及双方在模型适配与联合研发中的协作过程，包括 Slime 开源框架的共建经验。从模型侧视角，展示了框架与模型协同进化的完整过程，也体现了 SGLang 社区对多模型生态的长期投入。

张昱轩 GLM 技术布道师

在高强度的技术分享之外，本次活动也特别设置了多轮互动环节。为到场开发者准备了丰富的抽奖福利与限量社区周边，茶歇与抽奖时间成为开发者之间自由交流的重要节点，不少讨论从台上的议题延伸到台下的实践经验与工程细节。这种将技术讨论与社区互动并行的节奏，正是 SGLang 社区线下活动希望营造的状态——在真实问题中交流，在协作中持续演进。

本次 SGLang AI 金融 π 对（杭州站）所呈现的，不只是若干独立的技术议题，而是一条清晰的大模型推理工程演进路径：从缓存与内存体系的重构，到权重更新与强化学习推理效率的提升，再到算力平台与模型生态之间的协同适配。

随着模型规模、结构与应用形态不断演进，推理系统正逐步成为 AI 工程中最具挑战性、也最具价值的基础设施之一。这类问题无法依靠单点方案解决，更依赖持续的工程实践与开放协作。SGLang 社区正是基于这样的共识，通过开源方式连接来自不同领域的开发者、模型厂商与平台方，在真实场景中共同打磨可复用、可扩展的推理能力。每一次分享、每一次讨论，最终都将沉淀为代码、工具与经验，回馈给更广泛的开发者群体。

未来，随着更多模型、硬件与应用场景的加入，SGLang 也将继续与社区一起，推动大模型推理系统向更加高效、灵活与工程化的方向演进。