2025 年 12 月 6 日,xLLM 社区在北京成功举办 “共建开源 AI Infra 生态 —— 大模型推理引擎的技术演进与产业共振” 线下 MeetUp。这场汇聚产学研顶尖力量的技术盛会,不仅全景呈现了 xLLM 推理引擎的核心突破与生态布局,更通过五大重磅演讲,深度解析了大模型推理在性能优化、成本控制、硬件适配等关键领域的前沿实践,为国产全栈 AI Infra 生态建设注入强劲动力。

核心密码:重磅议程干货集锦,解锁推理技术
本次 MeetUp 邀请到京东、清华、北航、华为、智源研究院等机构的技术专家,从框架演进、架构创新、硬件适配、性能优化等多维度,带来了兼具深度与实践价值的分享。
活动开始,京东零售 Al Infra & 大数据计算负责人 张科做了开场致辞。他提到,过往的分布式系统,它主要以应用数据与计算为中心来设计,辅以 AI(内嵌或者外调),今天的分布式系统将以 AI 为中心来设计。未来,超级智能操作系统将成为数据中心的中枢,统一驱动并调配所有机器与算力资源。
张科表示,顺着这一思路推演,未来的应用系统必将围绕超大模型的分布式架构构建。“至于它最终会呈现怎样的形态、达成怎样的高度,就靠今天在座这群有激情、有才华的同仁,共同思考、共同推动。” 他衷心感谢所有参与者的到来,并期待大家携手助力社区与生态的持续发展,为 AI 技术的落地与演进凝聚合力。

张科 京东零售 Al Infra & 大数据计算负责人
技术前瞻:xLLM 的多元场景突破之路
开源大模型推理引擎 xLLM 负责人 刘童璇,以《xLLM 技术前瞻和演进路线》为主题率先分享核心成果。区别于传统推理框架聚焦单一场景的局限,xLLM 以 “下一代通用化推理引擎” 为定位,构建起覆盖大语言模型、多模态生成、推荐系统、文生图 / 视频等多元场景的核心能力矩阵。该技术已成功落地京东 11.11 大促等核心业务场景,实现业务效率提升超 5 倍、机器成本降低 90% 的显著成效,充分彰显产业级落地实力。未来,xLLM 将持续深耕模型接入灵活性与硬件适配广度,携手开源生态伙伴共推技术协同创新,开拓更多元化的应用新可能。

刘童璇 开源大模型推理引擎 xLLM 负责人
算力优化新突破:多元 AI 算力的算子库与编译器实践
北京智源人工智能研究院研发经理 门春雷,带来《面向多元 AI 算力的算子库 & 编译器实践与思考》主题分享。团队自主打造的 FlagOS 系统软件栈,以通用算子库 FlagGems 与统一编译器 FlagTree 为核心双引擎,成功实现对 Nvidia、昇腾、寒武纪等主流品牌在内的 25 款 AI 芯片全覆盖适配。其中,FlagGems 算子库已沉淀 220 余个算子,性能表现平均优于 CUDA 基准;FlagTree 编译器凭借硬件感知智能优化技术,让重点算子在昇腾平台实现 10% 以上的性能跃升,高效破解了多元算力适配的行业核心难题。

门春雷 北京智源人工智能研究院研发经理
架构革新:从同构到分离,重塑大模型推理系统新范式
清华大学副教授、Mooncake 发起人 章明星,带来《从同构走向分离的大模型推理系统》主题演讲。他指出,当前大模型全生命周期中,推理成本已远超训练成本,90% 以上的开销集中于推理阶段,成为行业核心痛点。针对这一问题,章明星团队创新提出以 KVCache 为核心的分离式推理架构 Mooncake,通过 Prefill/Decode 异构分离、分布式 KVCache 池化等关键设计,实现吞吐提升超 75%,GPU 算力成本降低 29%-61% 的显著成效。目前,Mooncake 已正式开源并成功落地阿里、蚂蚁等企业核心业务,正与 vLLM、SGLang 等行业主流方案携手,共建分布式推理架构标准。

章明星 清华大学副教授、Mooncake 发起人
硬件适配新标杆:昇腾超节点内存共享技术的实践突破
华为计算软件平台高级专家包小明,带来《基于昇腾超节点的内存共享技术与应用实践》主题分享。依托昇腾 A2 服务器与 A3 超节点的硬件原生优势,华为创新构建 HBM/DRAM 混合内存池,通过全局虚拟地址映射、xcopy 高速数据传输等核心技术,实现节点内 NPU 双向带宽最高可达 784GB/s 的卓越性能。该方案已成功落地分布式 KVCache、PD 传输等关键场景,为大模型高性能、低成本推理需求提供了坚实的硬件级技术支撑。

包小明 华为计算软件平台高级专家
开源生态蓬勃生长,产学研协同共筑未来
成立三个月的 xLLM 开源技术社区, 已汇聚众多顶尖科技公司与研究机构的开发者,形成了 “框架 - 模型 - 硬件” 三位一体的开源生态。目前 xLLM 已在 AtomGit 等平台开源,集成了 Mooncake 等业界领先的存储解决方案,可灵活对接多种主流大模型,并与昇腾等国产算力领跑者达成深度合作。



本次 MeetUp 的成功举办,不仅是 xLLM 社区技术实力的集中展示,更是开源 AI Infra 生态协同的重要里程碑。未来,xLLM 将继续联合清华、北大、中科大等高校及硬件厂商,持续突破大模型落地的性能、成本、场景瓶颈,推动 AI 技术普惠化发展。

916

被折叠的 条评论
为什么被折叠?



