盛况回顾！xLLM MeetUp 北京站圆满落幕，共绘开源 AI Infra 生态新蓝图

原创于 2025-12-08 09:21:16 发布 · 645 阅读

18 ·

CC 4.0 BY-SA版权

文章标签：

#开源 #人工智能

开源活动同时被 2 个专栏收录

121 篇文章

订阅专栏

AtomGit

37 篇文章

订阅专栏

2025 年 12 月 6 日，xLLM 社区在北京成功举办 “共建开源 AI Infra 生态 —— 大模型推理引擎的技术演进与产业共振” 线下 MeetUp。这场汇聚产学研顶尖力量的技术盛会，不仅全景呈现了 xLLM 推理引擎的核心突破与生态布局，更通过五大重磅演讲，深度解析了大模型推理在性能优化、成本控制、硬件适配等关键领域的前沿实践，为国产全栈 AI Infra 生态建设注入强劲动力。

核心密码：重磅议程干货集锦，解锁推理技术

本次 MeetUp 邀请到京东、清华、北航、华为、智源研究院等机构的技术专家，从框架演进、架构创新、硬件适配、性能优化等多维度，带来了兼具深度与实践价值的分享。

活动开始，京东零售 Al Infra & 大数据计算负责人张科做了开场致辞。他提到，过往的分布式系统，它主要以应用数据与计算为中心来设计，辅以 AI（内嵌或者外调），今天的分布式系统将以 AI 为中心来设计。未来，超级智能操作系统将成为数据中心的中枢，统一驱动并调配所有机器与算力资源。

张科表示，顺着这一思路推演，未来的应用系统必将围绕超大模型的分布式架构构建。“至于它最终会呈现怎样的形态、达成怎样的高度，就靠今天在座这群有激情、有才华的同仁，共同思考、共同推动。” 他衷心感谢所有参与者的到来，并期待大家携手助力社区与生态的持续发展，为 AI 技术的落地与演进凝聚合力。

张科京东零售 Al Infra & 大数据计算负责人

技术前瞻：xLLM 的多元场景突破之路

开源大模型推理引擎 xLLM 负责人刘童璇，以《xLLM 技术前瞻和演进路线》为主题率先分享核心成果。区别于传统推理框架聚焦单一场景的局限，xLLM 以 “下一代通用化推理引擎” 为定位，构建起覆盖大语言模型、多模态生成、推荐系统、文生图 / 视频等多元场景的核心能力矩阵。该技术已成功落地京东 11.11 大促等核心业务场景，实现业务效率提升超 5 倍、机器成本降低 90% 的显著成效，充分彰显产业级落地实力。未来，xLLM 将持续深耕模型接入灵活性与硬件适配广度，携手开源生态伙伴共推技术协同创新，开拓更多元化的应用新可能。

刘童璇开源大模型推理引擎 xLLM 负责人

算力优化新突破：多元 AI 算力的算子库与编译器实践

北京智源人工智能研究院研发经理门春雷，带来《面向多元 AI 算力的算子库 & 编译器实践与思考》主题分享。团队自主打造的 FlagOS 系统软件栈，以通用算子库 FlagGems 与统一编译器 FlagTree 为核心双引擎，成功实现对 Nvidia、昇腾、寒武纪等主流品牌在内的 25 款 AI 芯片全覆盖适配。其中，FlagGems 算子库已沉淀 220 余个算子，性能表现平均优于 CUDA 基准；FlagTree 编译器凭借硬件感知智能优化技术，让重点算子在昇腾平台实现 10% 以上的性能跃升，高效破解了多元算力适配的行业核心难题。

门春雷北京智源人工智能研究院研发经理

架构革新：从同构到分离，重塑大模型推理系统新范式

清华大学副教授、Mooncake 发起人章明星，带来《从同构走向分离的大模型推理系统》主题演讲。他指出，当前大模型全生命周期中，推理成本已远超训练成本，90% 以上的开销集中于推理阶段，成为行业核心痛点。针对这一问题，章明星团队创新提出以 KVCache 为核心的分离式推理架构 Mooncake，通过 Prefill/Decode 异构分离、分布式 KVCache 池化等关键设计，实现吞吐提升超 75%，GPU 算力成本降低 29%-61% 的显著成效。目前，Mooncake 已正式开源并成功落地阿里、蚂蚁等企业核心业务，正与 vLLM、SGLang 等行业主流方案携手，共建分布式推理架构标准。

章明星清华大学副教授、Mooncake 发起人

硬件适配新标杆：昇腾超节点内存共享技术的实践突破

华为计算软件平台高级专家包小明，带来《基于昇腾超节点的内存共享技术与应用实践》主题分享。依托昇腾 A2 服务器与 A3 超节点的硬件原生优势，华为创新构建 HBM/DRAM 混合内存池，通过全局虚拟地址映射、xcopy 高速数据传输等核心技术，实现节点内 NPU 双向带宽最高可达 784GB/s 的卓越性能。该方案已成功落地分布式 KVCache、PD 传输等关键场景，为大模型高性能、低成本推理需求提供了坚实的硬件级技术支撑。

包小明华为计算软件平台高级专家

开源生态蓬勃生长，产学研协同共筑未来

成立三个月的 xLLM 开源技术社区，已汇聚众多顶尖科技公司与研究机构的开发者，形成了 “框架 - 模型 - 硬件” 三位一体的开源生态。目前 xLLM 已在 AtomGit 等平台开源，集成了 Mooncake 等业界领先的存储解决方案，可灵活对接多种主流大模型，并与昇腾等国产算力领跑者达成深度合作。