智源研究院官方账号-优快云博客

原创智源数字孪生心脏升级：全自动跨尺度心脏毒性推演，构建“可计算”的药物研发未来

精准评估药物心脏毒性，构建端到端的“虚拟心脏安全护栏”。

2025-12-23 16:33:18 239

原创智源开源 Reason-RFT：用强化学习重塑视觉推理，突破 VLM 泛化瓶颈

RoboBrain 是智源研究院推出的面向真实物理环境的“通用具身大脑”系统，集感知、推理与规划于一体，构建了从大脑认知到小脑控制的完整技术体系，包括具身大脑基座模型RoboBrain 2.0、面向3D轨迹生成的RoboBrain-SpatialTrace、用于强化学习稠密奖励生成的RoboBrain-Dopamine、通用小脑VLA模型RoboBrain-X0 Pro，以及灵巧手基座模型RoboBrain-Dex。这表明模型真正学到的是“如何推理与规划”，而非“如何应对某一类固定模板的题目”。

2025-12-12 20:23:14 497

原创北大、智源联合国际顶尖机构发布全球首个AI 欺骗系统性报告，敲响前沿系统安全警钟

顶级专家阵容，全景式拆解AI欺骗机制与防御体系。

2025-12-06 16:05:51 878

原创从长视频中探寻世界模型新范式：Emu3.5 的 Next-State Prediction 之路

我们使用 Whisper-large-v2 对每条视频做自动语音识别，获取逐词时间戳的文本，并通过 spaCy 进行停顿切分与句法整理，使视频语言更自然、结构化。长视频蕴含的是更深层次的世界规律，是时空延展的多模态经验（long-horizon multimodal experiences）。这些挑战，本质上也是未来方向：更大规模数据、更先进模型结构、更系统评估方法、更高效 tokenizer，将推动世界模型迈向下一阶段。语言的加入大幅提升了长视频的语义密度，让模型更容易理解场景、意图与行为。

2025-11-29 20:29:50 690

转载智源发布具身数据创新基座，携手行业共筑物理AGI基础设施

智源研究院具身数据负责人姚国才表示，该数据集之所以取名为RoboCOIN，是寓意每一份高质量数据都如同一枚闪闪发光的“金币”，然而一枚金币的面值是微小的，需要大家都往“存钱罐”里投入更多“金币”，若全行业能够齐心协力，就有希望积少成多，换取到一张通向物理AGI的船票。等8家企业，以及清华大学、北京大学、中国人民大学、北京邮电大学、电子科技大学、斯坦福、伯克利和剑桥大学等高校，合作建立了一个全球“本体数最多、标注最精细、使用最便捷”的高质量双臂机器人真机数据集RoboCOIN。现状是数据相互隔离。

2025-11-25 14:14:33 60

原创具身开放日点燃生态引擎，智源以开源开放驱动具身智能创新

感受新一代青年科研工作者的活力、热情与担当

2025-11-21 18:06:07 699

原创思维链的陷阱：智源FlagEval评测揭示推理模型真实能力与安全隐患

揭示推理模型的“表”和“里”

2025-11-11 15:18:48 944

转载智源具身框架Thor开源：迈向类人级全身控制，让机器人在强对抗中“站稳脚跟”

例如，在双手向后拉动任务中，Thor 实现了 167.7 N 的峰值拉力（约为机器人自重的 48%），相较于表现最佳的基线算法，性能提升了 68.9%。我们将持续开放最新进展，期待与全球科研机构及产业伙伴携手，在工业、服务业、特种作业等更广泛的场景中，共同推动具身智能的演进与落地，让机器人真正走进物理世界，成为人类的可靠伙伴与得力助手。，结合生物力学控制原理与创新的网络结构，让人形机器人在高强度力交互任务中，实现媲美人类的全身协同与动态稳定能力，显著提升其在真实、复杂环境中的作业潜力。

2025-11-07 11:55:21 71

转载智源悟界·Emu3.5：开启多模态世界大模型新纪元

DiDA 将传统的串行逐 token 生成过程，转变为一个多步并行的预测过程，在不牺牲性能的前提下，将每张图片的推理速度提升了近 20 倍，首次使自回归模型的生成效率媲美顶尖的闭源扩散模型。作为悟界·Emu 系列的最新成员，Emu3.5 延续了将图像、文本和视频等多模态数据统一建模的核心思想，并实现了从“下一Token 预测”（Next-Token Prediction）到“下一状态预测”（Next-State Prediction）的能力跃迁，通过海量视频等多模态数据，让模型自发学习世界演变的内在规律。

2025-10-31 14:11:21 85

原创单图高精度6D位姿估计方法开源，让机器人“一眼看懂”陌生物体

为此，团队设计了一套粗到精的联合迭代优化策略，将尺度恢复融入端到端位姿估计流程，先快速初始化位姿（粗对齐），再通过迭代优化最终达到毫米级精度（精对齐）。当先验信息缺失（如无CAD模型、无多视角数据）时，系统不再被动等待理想输入，而是主动“生成-对齐”，利用生成式 AI 补全物体的完整3D结构，并通过几何与尺度的联合优化，将其精准锚定在真实空间中。实验过程：左列为锚点图像，中列为生成的 3D 模型，右列为机器人抓取时的位姿估计结果，可见生成的模型与真实物体纹理、结构高度一致，估计的位姿能精准指导机械臂抓取。

2025-10-28 10:35:47 627 1

转载智源开源EditScore：为图像编辑解锁在线强化学习的无限可能

北京智源人工智能研究院 VectorSpace Lab 团队近日发布了全新的高保真奖励模型系列——EditScore，旨在为指令引导的图像编辑任务提供精确、可靠的奖励信号，从而为强化学习在 AIGC 领域的深入应用铺平道路，真正解锁其强大潜力。

2025-10-22 14:33:51 30

原创众智FlagOS的统一通信库实现国家与国际标准“双立项”

国内国际标准双驱动，助力构建开放共融的AI系统生态

2025-10-21 10:43:30 768

原创【无标题】

在智源研究院，我们不仅努力构建解决当下问题的 AI 工具，更致力于探索生物智能与人工智能演化的深层原理。我们相信，复杂系统的涌现离不开功能表现与物理结构的相互作用，我们的科研布局也始终围绕“功能”（Functionality）与“结构”（Structure）两大核心维度展开。在这一理念的指引下，智源研究院生命模拟中心将“数字孪生心脏”作为一个长期投入的核心方向，围绕“如何用数字化的方式精准还原和模拟每一颗独特的心脏”持续探索，希望为个性化诊疗、风险预测和科学研究提供坚实的支撑。

2025-10-14 18:07:37 810

原创智源 RoboBrain-X0 开源，打破机器人跨本体泛化困境

RoboBrain-X0 的设计理念正是如此：模型首先将复杂任务（如“整理桌面”）分解为与具体机器人“身体”解耦的通用语义动作序列，并通过统一映射机制，将“意图”高效转译为多种机器人可直接执行的动作。该模型具备零样本泛化能力，完成简单的 pick&place 任务，同时只需在目标任务上进行少量样本微调，即可展现出强大的跨本体适配性，进行复杂任务的拆解和执行。现实世界充满了多样性与不确定。不同的机器人拥有不同的“身体”（单臂、双臂、轮式、人形），工作在不同的环境（家庭、工厂、办公室），面对形态各异的物体。

2025-09-30 16:22:57 868

原创从云端到终端，从大模型到机器人：智源众智FlagOS 1.5引领开放计算生态迈向成熟

9月26-27日，在北京举办的首届FlagOS开放计算开发者大会上，北京智源人工智能研究院（简称“智源研究院”）携手18个共创团队、超过60个全球生态合作伙伴，正式发布开源大模型智算基座“众智FlagOS 1.5”，已经支持了16家厂商超过20多款芯片，作为一个面向多种AI芯片的统一开源系统软件栈，众智FlagOS 1.5的发布标志着全球人工智能底层技术生态正迈向一个以“开放计算”为核心理念的协同创新新纪元。众智 FlagOS v1.5 发布。

2025-09-28 16:12:57 1209

原创众智FlagOS 1.5发布：统一开源大模型系统软件栈，更全面、AI赋能更高效

在AI芯片百花齐放的态势下，不同的硬件架构形成了独立的生态“烟囱”，模型在不同算力间的迁移与适配成本高昂，这不仅制约了技术创新的速度，也阻碍了AI普惠的进程。我们深知，构建一个真正通用、高效的AI系统生态，仅依靠任何单一机构的力量远远不够，需要开放的标准、透明的协作以及全球社区的共同智慧。：针对大规模集群中至关重要的通信环节，通过深度优化Pipeline，新版FlagCX的通信效率实现了最高2.5倍的增长，并率先支持了跨芯片的异构混合训练。我们发布的不是一个封闭的成品，而是一个持续演进的、开放的起点。

2025-09-26 16:26:41 979

转载具身智能从此「边听边说」，智源研究院开源原生全双工语音大模型RoboBrain-Audio

【转载自：机器之心】语音交互作为人机通信的关键接口，长期以来受限于高延迟、低自然度的交替式对话架构。为突破这一瓶颈，北京智源人工智能研究院联合 Spin Matrix 与新加坡南洋理工大学，正式发布 RoboBrain-Audio（FLM-Audio） —— 首个支持 “自然独白 + 双训练范式” 的原生全双工语音对话大模型。在一段自然对话音频中，用户连续提出多个不同问题，并多次在模型回答过程中打断。

2025-09-25 15:43:26 137

原创智源发布具身智能能力基座，共筑全球具身新生态

智源具身智能数据平台现已面向全球开放免费试用申请，招募生态合作伙伴

2025-09-19 14:31:33 858

原创 2025智源学者资助计划启动

诚邀学术精英、产业生态伙伴同行，携手加速人工智能原始创新

2025-09-19 14:29:13 87

原创智源研究院黄铁军：2015、2030、2045，AI促进可持续发展

智能、环境与人类三者的动态再平衡

2025-09-17 21:02:50 695

原创具身智能助力医疗普惠，智源清华联合研发全自主颈动脉超声机器人登刊 Nature Communications

智源清华联合研发，通过数据驱动的AI路径，实现专家级颈动脉超声扫查

2025-09-09 18:52:38 976

原创具身智能评估新思路：智源评测FlagEval基于2025世界人形机器人运动会足球赛的初步探索

我们首次在大型机器人赛事中引入系统化的过程性数据分析，并对48场比赛的全量数据进行采集与分析，重点关注对抗环境下机器人的稳定性与协作情况，希望可以初步探索挖掘机器人性能的核心指标与潜在短板的方法，分析具身智能模型和算法的优劣，为行业提供可操作的技术洞察与方法参考。，整体呈现出更具进攻性的风格，更倾向于进行高频次射门尝试。基于此，选择机器人足球赛作为研究与评估的切入点，超越单纯的胜负结果，将比赛过程中的关键行为转化为系统化的评价维度，有助于揭示当前具身智能技术的优势与不足，为发展指明更具实践意义的方向。

2025-08-29 13:06:26 968

原创首届AI国际人才峰会启幕，智源携手港投公司共筑青年创新生态

他指出，该模式的核心在于：一是对技术趋势的深刻预判，2021年智源发布“悟道”系列大模型，预见大模型将成为“智能时代的基础设施”；黄铁军表示，人工智能像互联网一样，是全球化的体系，其研发、产业和应用都是全球性的，此次合作将智源人工智能技术内核与香港国际枢纽地位结合，以人才为核心，助力香港成为智能时代的龙头。展望未来，智源研究院将继续发挥自身在人工智能领域技术优势，与各方合作伙伴一起，以人才为创新生态核心，携手推动人工智能的前沿探索与产业融合，共建智能时代商业新生态，共创人类、环境和智能可持续发展的未来。

2025-08-28 10:16:44 491

原创中科大携手智源发布 BGE-Reasoner：引领推理式信息检索新高度

结合合成数据与强化学习的推理检索新框架

2025-08-27 16:39:35 1033

原创智源研究院发布数据魔方，以智能化自定义方式重构模型训练数据供给范式

数据魔方”首次以全新的“多、快、好、省”的方式为用户提供高质量自定义开源数据集（多模态数据），旨在以技术创新打通数据供给与应用个性化需求之间的壁垒，为AI模型训练提供高效、精准、低成本的全新数据解决方案。与此同时，模型训练正从通用领域加速向垂直领域发展，这意味着模型对训练数据的需求呈现出垂直化、精细化、个性化的趋势。然而，在实际操作中，传统模型训练仍依赖人工检索多个数据集，随后进行下载、汇总、筛选、过滤、去重、质检等一系列繁琐流程，不仅耗时费力，也严重制约了模型开发效率。

2025-07-29 17:29:56 748

原创国际标准组织共聚，智源推动全球AI开源与国际标准双轮驱动人工智能普惠化发展

7 月 26 日，人工智能标准化国际合作论坛在上海召开。

2025-07-29 17:29:17 1052

原创 FlagRelease上线：自动迁移发布大模型多芯高效版本，用户下载即用

模型开源并不意味着模型可用，绝大多数的开源模型仅适配某单一闭源芯片硬件生态，不同芯片的适配方案无法互通，生态高度分裂，适配各种AI硬件需要投入大量人力，效率低下。此外，每个模型的更新都需要重新适配，维护成本高企。为了让开源大模型人人可用、多种硬件可运行，降低人工智能计算的门槛，智源研究院研发了面向多种AI芯片的大模型自动迁移、多芯片发版平台 FlagRelease。依托统一、开源的AI系统软件栈FlagOS提供的跨芯适配能力，FlagRelease 打造了一套将大模型并的标准流程。

2025-07-22 14:27:40 717

原创智源全面开源RoboBrain 2.0与RoboOS 2.0：刷新10项评测基准，多机协作加速群体智能

RoboBrain 2.0以卓越的多模态感知、精细的空间推理及强大的长时规划能力，赋能机器人在具身环境中进行交互推理、多智能体协作及高效任务规划，助力复杂物理场景的智能感知与决策。通过这一阶段的训练，模型能够生成推理链，支持复杂任务的逐步推理和决策，从而在具身情境中实现更高效、更准确的推理和规划能力。：整合标准视觉问答、区域级查询、OCR视觉问答及多轮视觉对话，优化语言表达的多样性与语义一致性，通过丰富的视觉-语言交互数据，提升模型对复杂任务的理解与响应能力，适应从简单问答到多轮对话的多样场景。

2025-07-14 12:52:48 952

原创智源研究院26届“智星”科技人才计划正式启动

投递链接：https://app.mokahr.com/campus-recruitment/baai/42174#/

2025-07-07 15:45:06 376

原创 OmniGen2重磅升级，统一图像生成再进化

随后，随着 Gemini 2.0 Flash 和 GPT-4o 等闭源多模态模型的相继发布，构建统一图像生成模型成为当前最受关注的研究与应用方向之一。同时，先前的基准使用CLIP-I和DINO指标来评估上下文生成的图像的质量。然而，对于图片上下文参考生成（in-context generation)任务，目前还缺乏完善的公共基准来系统地评估和比较不同模型的关键能力。反思数据由文本和图像的交错序列组成，首先是一个用户指令，接着是多模态模型生成的图像，然后是针对之前生成输出的逐步反思。

2025-07-03 14:32:25 814

原创智源-人大高瓴26级联培博士预推免报名开始啦~欢迎感兴趣的同学咨询报名

智源-人大高瓴26级联培博士预推免报名开始啦~欢迎感兴趣的同学咨询报名！

2025-07-02 11:19:53 231

原创跨芯片 AI 算子库 FlagGems 正式加入PyTorch 基金会生态项目体系

2025年北京智源大会 · PyTorch Day China 论坛上，PyTorch 基金会执行董事 Matt White 宣布高性能通用 AI 算子库 FlagGems 项目获得批准，正式加入 PyTorch 生态项目体系。Pytorch基金会于6月26日在推特上进行了官方宣布。作为唯一支持多种AI芯片架构的算子库，FlagGems 的加入加速了 PyTorch 实现“的技术创新。

2025-06-27 17:47:18 1163

原创 DrugCLIP：AI驱动超高通量虚拟筛选引擎，开启后AlphaFold时代创新药物发现新篇章

构建人类蛋白组筛选数据库，推动后 AlphaFold 时代药物发现新范式依托 DrugCLIP，团队首次完成了人类基因组规模的虚拟筛选项目，覆盖约 1 万个蛋白靶点、2 万个结合口袋，分析超过 5 亿个小分子，富集出 200 万余个高潜力活性分子，构建了目前已知最大规模的蛋白-配体筛选数据库。依托该平台，团队打通了从 AlphaFold 结构预测到药物发现的关键通道，首次完成了覆盖人类基因组规模的药物虚拟筛选，为后 AlphaFold 时代的创新药物发现带来了新的可能性。

2025-06-16 13:21:39 685

原创 2025北京智源大会闭幕|黄铁军：构建物理智能体，具身智能目标是星辰大海

此外，大会现场搭建了智源AI科研成果互动体验展台，集中呈现了具身智能、脑科学、数字心脏等前沿科研成果的应用场景，吸引大量参会者驻足体验、深度互动，现场气氛热烈。现场炫技，还有Physical Intelligence联合创始人兼CEO Karol Hausman与宇树科技创始人王兴兴，银河通用创始人兼CTO、北京大学助理教授、智源具身智能研究中心主任王鹤，穹彻智能联合创始人、上海交通大学教授卢策吾，北京人形机器人创新中心总经理熊友军、智源研究院院长王仲远隔空共话具身智能的现状与未来。我们的使命伟大而光荣！

2025-06-08 11:18:11 890

原创 2025北京智源大会开幕|智源发布“悟界”系列大模型，解码物理世界交互新范式

2025年6月6日，第七届“北京智源大会”在中关村展示中心开幕。北京智源大会是智源研究院主办的“AI内行学术盛会”，以“全球视野、思想碰撞、前沿引领”为特色，汇聚海内外研究者分享研究成果、探寻前沿知识、交流实践经验。2025北京智源大会邀请到了图灵奖得主、深度学习代表人物Yoshua Bengio，图灵奖得主、强化学习之父Richard S. Sutton，图灵奖得主Joseph Sifakis、姚期智，Google、DeepMind、Meta、Mila、Physical Intelligence、MIT、

2025-06-06 14:21:37 957

空空如也

空空如也