盛况回顾!xLLM MeetUp 北京站圆满落幕,共绘开源 AI Infra 生态新蓝图

2025 年 12 月 6 日,xLLM 社区在北京成功举办 “共建开源 AI Infra 生态 —— 大模型推理引擎的技术演进与产业共振” 线下 MeetUp。这场汇聚产学研顶尖力量的技术盛会,不仅全景呈现了 xLLM 推理引擎的核心突破与生态布局,更通过五大重磅演讲,深度解析了大模型推理在性能优化、成本控制、硬件适配等关键领域的前沿实践,为国产全栈 AI Infra 生态建设注入强劲动力。

图片

核心密码:重磅议程干货集锦,解锁推理技术

本次 MeetUp 邀请到京东、清华、北航、华为、智源研究院等机构的技术专家,从框架演进、架构创新、硬件适配、性能优化等多维度,带来了兼具深度与实践价值的分享。

活动开始,京东零售 Al Infra & 大数据计算负责人 张科做了开场致辞。他提到,过往的分布式系统,它主要以应用数据与计算为中心来设计,辅以 AI(内嵌或者外调),今天的分布式系统将以 AI 为中心来设计。未来,超级智能操作系统将成为数据中心的中枢,统一驱动并调配所有机器与算力资源。

张科表示,顺着这一思路推演,未来的应用系统必将围绕超大模型的分布式架构构建。“至于它最终会呈现怎样的形态、达成怎样的高度,就靠今天在座这群有激情、有才华的同仁,共同思考、共同推动。” 他衷心感谢所有参与者的到来,并期待大家携手助力社区与生态的持续发展,为 AI 技术的落地与演进凝聚合力。

图片

张科 京东零售 Al Infra & 大数据计算负责人

技术前瞻:xLLM 的多元场景突破之路

开源大模型推理引擎 xLLM 负责人 刘童璇,以《xLLM 技术前瞻和演进路线》为主题率先分享核心成果。区别于传统推理框架聚焦单一场景的局限,xLLM 以 “下一代通用化推理引擎” 为定位,构建起覆盖大语言模型、多模态生成、推荐系统、文生图 / 视频等多元场景的核心能力矩阵。该技术已成功落地京东 11.11 大促等核心业务场景,实现业务效率提升超 5 倍、机器成本降低 90% 的显著成效,充分彰显产业级落地实力。未来,xLLM 将持续深耕模型接入灵活性与硬件适配广度,携手开源生态伙伴共推技术协同创新,开拓更多元化的应用新可能。

图片

刘童璇 开源大模型推理引擎 xLLM 负责人

算力优化新突破:多元 AI 算力的算子库与编译器实践

北京智源人工智能研究院研发经理 门春雷,带来《面向多元 AI 算力的算子库 & 编译器实践与思考》主题分享。团队自主打造的 FlagOS 系统软件栈,以通用算子库 FlagGems 与统一编译器 FlagTree 为核心双引擎,成功实现对 Nvidia、昇腾、寒武纪等主流品牌在内的 25 款 AI 芯片全覆盖适配。其中,FlagGems 算子库已沉淀 220 余个算子,性能表现平均优于 CUDA 基准;FlagTree 编译器凭借硬件感知智能优化技术,让重点算子在昇腾平台实现 10% 以上的性能跃升,高效破解了多元算力适配的行业核心难题。

图片

门春雷 北京智源人工智能研究院研发经理

架构革新:从同构到分离,重塑大模型推理系统新范式

清华大学副教授、Mooncake 发起人 章明星,带来《从同构走向分离的大模型推理系统》主题演讲。他指出,当前大模型全生命周期中,推理成本已远超训练成本,90% 以上的开销集中于推理阶段,成为行业核心痛点。针对这一问题,章明星团队创新提出以 KVCache 为核心的分离式推理架构 Mooncake,通过 Prefill/Decode 异构分离、分布式 KVCache 池化等关键设计,实现吞吐提升超 75%,GPU 算力成本降低 29%-61% 的显著成效。目前,Mooncake 已正式开源并成功落地阿里、蚂蚁等企业核心业务,正与 vLLM、SGLang 等行业主流方案携手,共建分布式推理架构标准。

图片

章明星 清华大学副教授、Mooncake 发起人

硬件适配新标杆:昇腾超节点内存共享技术的实践突破

华为计算软件平台高级专家包小明,带来《基于昇腾超节点的内存共享技术与应用实践》主题分享。依托昇腾 A2 服务器与 A3 超节点的硬件原生优势,华为创新构建 HBM/DRAM 混合内存池,通过全局虚拟地址映射、xcopy 高速数据传输等核心技术,实现节点内 NPU 双向带宽最高可达 784GB/s 的卓越性能。该方案已成功落地分布式 KVCache、PD 传输等关键场景,为大模型高性能、低成本推理需求提供了坚实的硬件级技术支撑。

图片

包小明 华为计算软件平台高级专家

开源生态蓬勃生长,产学研协同共筑未来

成立三个月的 xLLM 开源技术社区, 已汇聚众多顶尖科技公司与研究机构的开发者,形成了 “框架 - 模型 - 硬件” 三位一体的开源生态。目前 xLLM 已在 AtomGit 等平台开源,集成了 Mooncake 等业界领先的存储解决方案,可灵活对接多种主流大模型,并与昇腾等国产算力领跑者达成深度合作。

图片

图片

图片

本次 MeetUp 的成功举办,不仅是 xLLM 社区技术实力的集中展示,更是开源 AI Infra 生态协同的重要里程碑。未来,xLLM 将继续联合清华、北大、中科大等高校及硬件厂商,持续突破大模型落地的性能、成本、场景瓶颈,推动 AI 技术普惠化发展。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值