FlagOS智算系统软件栈-优快云博客

原创万字长文，技术解读众智FlagOS v1.5四大新进展

首届FlagOS开放计算开发者大会上发布的众智FlagOS1.5版本在硬件兼容性、技术性能和应用场景等方面取得突破性进展。该系统支持20+芯片型号，实现跨架构统一能力；FlagScale框架实现大模型全流程优化，支持多种模型架构；通过分层设计和算法优化，通信效率提升2.3倍；创新性地引入AIAgent技术，算子开发效率提升4倍；并拓展至具身智能等新应用场景。FlagOS1.5显著降低了AI算力生态碎片化问题，为构建开放AI基础设施提供了重要支撑。

2025-10-20 16:42:49 862

原创国内首发！Triton Next 大会招募开启，携手探索算子语言新可能

这是国内首个专注于 Triton 技术及其生态的开发者盛会，一场连接未来、代码与创新的相遇。现在，答案来了：Triton，正在重塑 AI 编程的新范式！AI 计算的下一程，需要每一个热爱技术的你。无论你是深耕多年的系统高手，还是对底层充满好奇的初学者，这里都有属于你的席位与声音。这不仅是一场技术分享，更是一次生态的汇聚、一次思维的碰撞、一次未来的共建。✅代表“下一代”编程范式：与编译器、硬件协同进化，定义 AI 计算新未来。👤对 AI 底层计算感兴趣的学生与爱好者。亲手实践，带走可复用的代码与经验。

2025-12-12 10:42:44 300

原创具身智能“大脑”谁更强？FlagEval-EmbodiedVerse 11月评测榜单发布

具身智能是连接虚拟与现实、通往通用人工智能（AGI）的关键路径。近日，北京智源人工智能研究院。

2025-12-12 10:40:28 992

原创推出“首个”芯片解耦集合通信技术，众智 FlagOS 支持同/异构全场景互联互通

FlagCX统一通信库发布v0.7.0版本，新增uniRunner全场景统一模式，实现同构/异构芯片的互联互通。该版本基于Kernel-free Non-reduce技术，通过Device-buffer IPC/RDMA能力实现芯片解耦，无需依赖厂商原生通信库。性能测试显示，异构场景下通信带宽提升最高达4.57倍，同时支持10款主流AI芯片。新版本还提供了多芯片编译指南和PyTorch DDP测试方案，显著提升了跨芯片通信的兼容性和性能表现。

2025-12-12 10:37:58 839

原创漂洋过海来见你！国内首届 Triton 技术大会来喽

2026年1月9日，由 FlagOS 开源社区和北京智源人工智能研究院联合主办的 “Triton Next 技术大会（TritonNext）”将在北京举行。

2025-11-21 10:00:07 296

原创双榜齐发！FlagEval 安全合规 + 多模型对战榜单，全景透视大模型核心实力

FlagEval发布两大AI模型评测榜单：1）安全与价值观榜单对18款主流模型进行3000题测试，ClaudeSonnet4以86.76%合格率居首，头部模型主观题表现优异（97%+），但客观题存在20-25%差距；2）11月角斗场排行榜引入多模型对战机制和深度推理指标，o4-mini、GPT4.1-mini等位列第一梯队。榜单旨在建立科学评估标准，推动AI安全与能力发展。

2025-11-19 10:21:16 547

原创众智FlagOS与寒武纪硬件深度适配，打造AI产业开放协同新底座

FlagOS 在支持寒武纪算力过程中，在算子、编译器、分布式通信库和并行框架这四大关键组件上取得了重大技术进展与适配成果。

2025-11-14 10:41:10 888

原创 FlagOS的Triton算子实现RWKV最新模型端到端推理性能提升135%

FlagOS 社区致力于打造相面多种 AI 芯片的统一、开源的系统软件栈，包括大型算子库、统一AI编译器、并行训推框架、统一通信库等核心开源项目，构建「模型-系统-芯片」三层贯通的开放技术生态，通过“一次开发跨芯迁移”释放硬件计算潜力，打破不同芯片软件栈之间生态隔离，有效降低开发者的迁移成本。相比普通的神经网络，RNN 最核心和最本质的特征是，它像一个有“记忆”能力的人一样，能够把过去的信息和当前的信息结合起来，产生更准确的理解能力。RWKV7-13.3B的模型性能。运行 benchmark 脚本。

2025-11-05 10:40:01 616

原创 FlagOS 社区 Triton 增强版编译器 FlagTree v0.3发布，性能全面提升，适配 12+ 芯片生态

本文，我们将带领大家深度了解 Triton 增强版编译器 FlagTree v0.3 版本的新功能和新特性，并从芯片后端（GPGPU、DSA等）视角出发详细拆解适配 FlagTree 的步骤

2025-10-29 11:04:44 710

原创全球 PyTorch 大会与 Triton 大会释放强信号：算子语言繁荣和分化背后，编译器核心地位日益凸显

当地时间2025年10月22日至23日，全球 AI 开源盛会 PyTorch Conference 2025在美国旧金山召开，从底层编译器、到大模型算法、再到智能体层面，全面探讨推动最具突破性 AI 技术的创新核心框架。按惯例，Pytorch大会的前一天，Triton Developer Conference 在微软硅谷园区举行，同样围绕 AI 最重要的系统软件技术“AI compiler, program language, and optimization”主题展开。

2025-10-27 13:54:37 892

转载众智FlagOS的统一通信库实现国家与国际标准“双立项”

2025年10月6日–17日，国际电信联盟（ITU-T）SG21 日内瓦全会期间，基于众智FlagOS（面向多种AI芯片的统一开源系统软件栈）的统一通信库FlagCX技术，由智源研究院联合中国信息通信研究院牵头的ITU国际标准项目——《F.FUCL Requirements and Framework of Cross-Platform Unified Communication Libraries for Distributed Multimedia AI Systems》正式立项。

2025-10-23 15:32:12 78

原创与创新者同频！与FlagOS共赴开源之约

10月28日，北京将迎来开源行业的一场重磅盛会——2025OSCAR开源产业大会。本次大会汇聚全球开源领域的思想领袖、技术专家、企业高管以及创新实践者，围绕开源技术的未来、产业创新及生态协同展开深度讨论。

2025-10-23 15:23:44 231

原创智源研究院携手联合国、GOSIM共同举办“可持续发展大会”，凝聚全球开源力量共探AI普惠全球

2025年9月13日，智源研究院、联合国等机构将在杭州举办开放共创·可持续发展大会，聚焦AI与开源技术如何助力解决贫困、气候变化等全球性挑战。

2025-09-12 11:47:47 900

原创龙蜥社区成立“智算基础设施”联盟，牵手FlagOS社区打造AI开源新基座

8月7日，龙蜥智算基础设施联盟在2025开放计算技术大会上正式成立。该联盟由龙蜥社区牵头，联合阿里云、浪潮信息等产业链领军企业及清华大学等高校共同发起，旨在推动AI原生操作系统发展，构建开放兼容的AI生态体系。

2025-08-08 11:24:44 433

原创大模型自动迁移发版平台 FlagRelease 双周报（2025.6.23-7.04）

FlagRelease大模型迁移平台成功适配3个新模型至昇腾、沐曦芯片，累计完成10+主流模型在10+硬件架构的迁移。智源与魔乐社区联合举办"2025全国高性能云计算创新大赛-AI应用打榜赛"，提供免费算力及20万元奖金池，邀请开发者基于这些硬件平台开发AI应用。报名通道已开启，欢迎参赛者报名挑战。

2025-07-09 13:57:26 192

原创智源开源FlagOS升级：首次实现DeepSeek-R1满血版多种芯片高效快速部署

基于面向大模型、支持多种AI芯片的开源统一软硬件技术栈FlagOS，智源研究院联合多个芯片厂商一同开发并开源了DeepSeek-R1多芯片版本，旨在推动大模型在不同芯片的适配应用，打破生态墙和算力束缚，构建多元芯片的统一技术栈和开源软硬件生态。

2025-02-25 15:15:45 1164

原创 Triton生态 | 突破CUDA束缚，拥抱开放与多元的未来

直至今天，Triton已然走出了NVIDIA GPU的舒适区，连接起了更多不同的后端，除了设计相似的GPGPU，也有架构迥异的DSA芯片在拓展对Triton的支持，甚至在CPU、RISC-V领域也开启了迁移的探索。不可否认，CUDA生态历经多年的大浪淘沙仍旧在高性能计算领域处于强大的优势地位，无论是领先的硬件架构和芯片算力、成熟完整的开发工具链、还是独占鳌头的市场占有率，都让它成为AI大模型行业的首选。在过去的多年来，行业巨头固然带来了重要的技术突破，为AI大模型的里程碑式发展做出了不可磨灭的贡献；

2025-01-16 09:50:02 1046

原创项目动态｜2024 Q4 FlagGems 研发进展

FlagGems 是由北京智源人工智能研究院于 2024 年 6 月推出的面向多种 AI 芯片的开源大模型通用算子库。2024 年第四季度，FlagGems 仍处于高速迭代升级过程中。

2025-01-10 17:02:38 717

原创 Triton中国社区英雄榜 | 杰出贡献者证书颁发仪式

在Triton中国社区的每一个角落，都有着这样一群人，他们以代码为笔，以创新为墨，绘制着社区发展的宏伟蓝图。为了向这些默默无闻却又至关重要的贡献者们致以最深切的敬意，我们近期组织了一场别开生面的贡献者证书/奖项颁发仪式。

2025-01-10 16:56:12 842

原创智源发布异构统一通信库FlagCX，填补多元算力开源软件栈重要拼图

智源研究院联合生态合作伙伴，构建并开源异构统一通信库FlagCX，旨在实现不同芯片之间高效通信和不同场景下的大规模自适应通信优化，填补多元算力开源软件栈的重要版图。

2025-01-02 17:39:11 971

原创智源研究院与安谋科技达成战略合作，共建开源AI“芯”生态

12月25日，智源研究院与安谋科技（中国）有限公司（以下简称“安谋科技”）正式签署战略合作协议，双方将面向多元AI芯片领域开展算子库优化与适配、编译器与工具链支持、生态系统建设与推广等一系列深入合作，共同打造基于Arm架构的开源技术生态体系，赋能国内大模型与人工智能产业的高速发展。

2024-12-26 11:26:26 356

原创智源研究院与浪潮信息、北京开源芯片研究院达成战略合作，共筑多元AI芯片开源生态

2024年12月25日，智源研究院与浪潮电子信息产业股份有限公司、北京开源芯片研究院分别达成战略合作协议，共同打造基于Triton算子库的面向多元AI芯片的开源技术生态体系，赋能大模型与人工智能产业发展。

2024-12-26 11:25:38 398

原创活动报名｜AI系统创新研讨会-多元芯片的系统软件生态共建

智源研究院和浪潮信息将于12月25日（星期三）下午组织召开AI系统创新研讨会，共同探讨在大模型高速发展时期，如何构建多元AI算力芯片架构，共建全栈软件生态，助力AI技术和产业的发展和进步。

2024-12-23 16:21:15 298

转载 Triton 入门实践 | Triton 调优实战

Triton 的 Python API 里除了 triton.jit 还有 triton.autotune，triton heuristics，triton.Config 等接口用于调优以生成性能更好的 kernel

2024-12-17 17:33:37 2089

原创 Triton入门实践 | 算子性能优化：自动调优的艺术

Triton 以其低门槛开发和抽象的硬件细节处理，成为开发者的优选。对于渴望参与 Triton 开源社区建设的开发者来说，优化 Triton 算子是一条理想的路径。优化后的 Triton 算子性能有望匹敌甚至超越 PyTorch 的原生实现。正如古人云：“工欲善其事，必先利其器”，本文将介绍 Triton 算子优化的利器——自动调优（autotune）。

2024-12-13 11:46:32 2564

原创社区活动 | Triton中国社区贡献者茶话会圆满落地

11月30日周六下午，Triton中国社区的成员们齐聚一堂，参与了一场特别的茶话会。这场活动不仅是对开源社区贡献者辛勤工作的感谢，也是对未来发展方向的深入探讨.。

2024-12-11 17:49:41 531

原创 Triton 入门指南 | isin算子性能优化

Triton 面向的是数据块编程，屏蔽了大多数硬件细节，降低了开发门槛。开发人员可以专注于数据块划分和算法设计。通过合理的算法设计，Triton 实现的算子完全有可能在性能上超越 pytorch 中的 cuda 实现。

2024-11-18 15:14:38 1892 1

原创 Triton入门指南｜Triton DSL的特点与类型

Triton官方将其DSL语法表达体系称为 triton.language（https://triton-lang.org/main/python-api/triton.language.html），是一种依托于python环境的DSL，从该命名中的“language”中不难窥见，Triton团队想用自成一派的语言(language)对面向GPU的编程模型进行独特的表达，在Triton中，DSL由各种基本的操作或函数组成，它们直接映射到GPU的硬件功能，从而实现高效执行。

2024-10-29 10:00:30 1879

原创 Triton中国社区正式启动开发者贡献计划

Triton中国社区贡献者招募计划启动！点击了解详情进行报名

2024-10-24 09:59:15 661

原创活动回顾｜Triton&vLLM WorkShop

智源人工智能研究院于10 月 17 日下午，在位于北京市海淀区丰智东路13号朗丽兹西山花园酒店的GOSIM开源盛会上，成功举行了Triton&vLLM联合WorkShop。

2024-10-24 09:57:34 1234

转载活动报名 | Triton &vLLM联合WorkShop重磅来袭

Triton &vLLM联合WorkShop重磅来袭，点击文章立即报名！

2024-10-12 12:26:08 258

转载解锁FlagGems：Triton算子库的快速入门与贡献指南

FlagGems 使用 pre-commit（https://pre-commit.com）的 git hooks 格式化源代码，在调用 git commit 命令时进行代码静态检查，并且 pre-commit 测试也是 CI 的一部分，不通过检查的 Pull Request 不能被提交到 FlagGems。打开 FlagGems GitHub 首页（https://github.com/FlagOpen/FlagGems），单击 Fork 按钮创建一个仓库副本。

2024-10-09 13:08:18 1434

转载 PyTorch Conference 2024大会概况及FlagGems/FlagAttention算子库亮相

因此，本届 PyTorch 大会所宣讲的绝大多数内容都或多或少涉及大模型的训练、微调、对齐、推理、量化、部署、评测、数据、结构细节、底层编译优化等关键话题，以及整个 PyTorch 生态社群在过去一年中与之相关的努力。本届的例行报告本身包含五个部分，其中最后三个分别对应 PyTorch 官方今年新推出的三个原生大模型库：用于大规模预训练的 TorchTitan、用于大模型微调的 TorchTune、用于大模型端侧部署推理的 TorchChat。大会为过去一年中 PyTorch 社区的杰出贡献者颁发了奖项。

2024-10-09 12:47:25 650

转载开启大模型时代新纪元：Triton的演变与影响力

而相比更底层的CUDA C甚至PTX、SASS等，Triton则隐藏了一些线程块粒度以下的调度功能，改由编译器自动接管共享存储、线程并行、合并访存、张量布局等细节，降低了并行编程模型的难度，同时提高了用户的生产效率。同时，厂商能够及时跟进Triton的更新，保持在硬件适配的前沿序列，也可以提出多芯片适用的共性技术创新，并贡献到Triton的开放社区中，继而成为Triton生态发展的引领者。与CUDA相对而言，Triton隐藏了线程级别的操作控制权，在编程灵活性上有所牺牲，以达到开发效率和计算能效的均衡。

2024-09-24 09:05:38 1409

原创活动回顾｜Triton 中国生态 Meetup 第二期

通过实例代码，展示了如何优化 MoE 架构，提升计算效率，并探讨了 L2 缓存优化和量化技术在 MoE 中的应用，为 AI 模型的优化提供了宝贵的实践经验。李之昕老师详细介绍了 FlagGems 的最新研发进展，包括新增的算子和功能特性，性能和功能的改进，硬件适配的最新进展，以及未来的研发计划。活动的成功举办，展示了Triton的广泛应用和强大潜力，也为未来更多的Triton爱好者提供了宝贵的经验和启示。https://event.baai.ac.cn/activities/833（复制到浏览器打开）

2024-09-20 10:54:37 1304

原创 Triton大会@硅谷：芯片、AI大厂齐站台

此次大会，包括 Nvidia、AMD、Intel、Qualcomm 在内的各大芯片厂商，以及Google、微软、OpenAI、AWS 和 Meta 等 AI 领域的领军企业，均将 Triton 视为构建开放 AI 软件栈的关键技术，尤其是 Meta 都把 Triton 作为打造开放 AI 软件栈的必需品。Triton 的社区生态建设呈现出一种独特的活力，核心团队虽不张扬，但众多芯片厂商和用户厂商表现出极高的热情和积极性，Triton 社区有种被大家推着往前走的“幸福”感。敬请期待我们的精彩内容！

2024-09-19 13:03:15 1892 1

qq_41610763的博客