在线教程 | 150种专业工具/59个数据库/105个软件包,Biomni在8类真实研究任务中超越专家级效率

现代生物医学研究正陷入「数据爆炸与效率瓶颈」的矛盾中。一方面,基因测序、单细胞分析等技术的发展,催生了海量多模态数据——从基因组学的碱基序列到临床的影像数据,从微生物组的物种丰度到代谢组的小分子图谱,数据规模已达 PB 级;另一方面,研究流程的碎片化严重制约了发现速度:一个典型的多组学分析可能需要调用十余种工具、查询数十个数据库、参考上百篇文献,而这些工作往往依赖研究人员手动完成,不仅耗时且易出错。

然而,现有 AI 工具多为「专科型」,例如专注于 CRISPR 实验设计或单细胞注释的模型,它们仅能处理单一任务,难以跨领域协作。当研究涉及遗传学与药理学的交叉,或需要整合临床数据与基础研究结果时,这些工具便难以胜任。因此,构建一个能像人类科学家一样跨界思考、自主决策的通用生物医学智能体,成为突破当前研究困境的关键。

对此,斯坦福大学联合 Genentech 、 Arc Institute 、加州大学旧金山分校等机构研发了首个通用的生物医学 AI 智能体 Biomni,能自主执行跨越不同生物医学子领域的广泛研究任务,并且创建首个统一的环境智能体——从 25 个生物医学领域的数万篇出版物中挖掘必要的工具、数据库和方案。在此基础上,Biomni 具有通用智能体架构,将大语言模型(LLM)推理与检索增强规划和基于代码的执行相结合,使其能够动态地构建和执行复杂的生物医学工作流程,完全无需依赖预定义的模板或严格的任务流程。系统基准测试表明,Biomni 在异构生物医学任务中实现了强大的泛化,而无需任何特定于任务的提示调优。

论文地址:

https://go.hyper.ai/Vt5CD

一键部署教程链接:

https://go.hyper.ai/Mox9F

Biomni 的核心目标是开发一款无需预定义模板的通用生物医学 AI 智能体,使其能自主完成跨领域研究任务,具体包括三方面能力:

* 突破任务特异性限制:Biomni 希望仅通过自然语言指令,就能处理从「罕见病诊断」到「微生物组差异分析」的多样化任务。

* 整合多模态能力:打通从数据到实验的全流程。生物医学研究的闭环是「数据输入→分析推理→假设生成→实验设计→结果验证」,Biomni 需覆盖每个环节——既能处理 Excel 格式的可穿戴设备数据、 h5ad 格式的单细胞数据,也能生成 Python 代码进行分析,还能设计 PCR 实验验证假设。

* 建立人机协同的新范式:Biomni 的定位不是替代科学家,而是成为「超级助手」——自动完成数据清洗、文献检索等重复性工作,让研究者聚焦于假设(hypothesis)构建与创新设计。

数据集:三层数据集构建生物医学知识库

Biomni 的强大能力,源于其对生物医学研究资源的系统性整合。团队通过三层数据集的构建,为 AI 打造了一个覆盖工具、数据、任务的「数字实验室」。

为定义生物医学研究的基本操作单元,团队从 bioRxiv 的 25 个学科分类(如基因组学、微生物学、药理学)中,各选取 100 篇 2024 年发表的最新论文,通过「行动发现 Agent(Action Discovery Agent)」,逐篇解析研究流程,提取任务、工具、软件包、数据库四类核心元素。数据库包含 59 个核心资源,分两类——API 可访问的大型数据库(如存储蛋白质结构的 PDB 、临床变异数据库 ClinVar),以及本地部署的结构化数据集(如 GWAS 汇总统计数据、微生物组参考基因组)。

其次,为验证泛化能力,团队构建了多层次评估数据集:通用知识基准和真实世界任务集。通用知识基准包括 LAB-Bench(含 DbQA 数据库问答和 SeqQA 序列推理)和 Humanity’s Last Exam(覆盖 14 个生物医学子领域)。这些数据集不依赖特定工具,侧重考察 AI 的基础推理能力。真实世界任务集包含 8 个跨领域任务,每个都对应实际研究场景。

为展示实际应用价值,团队选取 3 类典型数据作为案例研究数据:

* 可穿戴设备数据:30 名参与者的 458 个 Excel 文件,含连续血糖监测(CGM)和体温数据(覆盖餐前 2 小时至餐后 4 小时),以及 227 晚的睡眠记录(包括睡眠时长、效率、阶段等);

* 多组学数据:人类胚胎骨骼发育的单细胞数据集(33.6 万个细胞核的 snRNA-seq 和 snATAC-seq 数据),以及 652 个脂质、 731 个代谢物、 1,470 个蛋白质的多组学数据;

* 湿实验数据:10 个克隆任务(涵盖 Golden Gate 、 Gibson 等方法),以及靶向 B2M 基因的 CRISPR 载体构建实验,用于验证 Biomni 设计的实验方案。

模型架构:双引擎设计与智能协同机制

Biomni 由两个主要组件组成:Biomni-E1(一个具有统一动作空间的基础生物医学环境)和 Biomni-A1(旨在有效利用该环境的智能体)。

* Biomni-E1 不是简单的工具集合,而是一个结构化的「数字实验室」,其设计需遵循真实性、灵活性、可扩展性三个原则,即所有工具、软件、数据库都经过专家验证;软件以容器化方式部署,支持版本切换,数据库查询支持自然语言输入;预留接口支持新增工具。

* Biomni-A1 作为通用智能的「决策中枢」,其架构突破了传统 AI 的「输入-输出」模式,具备类似人类科学家的问题解决流程,基于检索增强的规划进行动态工具选择;并且以代码作为通用接口,支持循环、并行、条件判断等复杂逻辑;支持自适应规划,初始计划基于知识生成,能够在执行中根据反馈进行调整。

Biomni 统一生物医学行动空间与智能体环境概述

实验结论:从基准测试到湿实验验证均表现优异

Biomni 的性能通过多层次实验得到验证,其结果不仅展示了技术突破,更揭示了通用生物医学 AI 的实用价值。

在标准化基准测试中,Biomni 展现出显著优势:

* 在 LAB-Bench 测试中,数据库问答(DbQA)的准确率达 74.4%,与人类专家(74.7%)相当,远超编码 Agent(40.8%);序列推理(SeqQA)的准确率 81.9%,超过人类水平(78.8%)。表明其处理结构化数据和生物序列的能力已接近专业研究者。

* 在 HLE 测试中,对覆盖 14 个领域的 52 个问题进行了评估,准确率为 17.3%,是基础 LLM(6.0%)的 2.9 倍,编码 Agent(12.8%)的 1.3 倍。值得注意的是,HLE 无开发集调优,完全考验零样本泛化能力,结果证明 Biomni 能应对未见过的跨领域问题。

此外,在 8 个真实世界任务中,Biomni 的平均表现远超基线:相对基础 LLM 提升 402.3%,相对编码 Agent 提升 43.0%,相对仅用 ReAct 链式推理的变体(Biomni-ReAct)提升 20.4% 。细分任务中,GWAS 因果基因检测准确率达 68.3%(人类专家平均 71.2%),单细胞注释的语义匹配率 89.7%,药物重定位的临床对齐分数 0.78(满分 1.0)。

Biomni 在多样化现实生物医学任务中的零样本广泛性

总而言之,Biomni 打破了传统 AI 在生物医学领域「专人专岗」的局限,实现了从基因调控网络分析到湿实验设计的全流程自主作业。这不仅是技术层面的创新,更展望了一个虚拟 AI 生物学家与人类科学家并肩工作并增强人类科学家能力的未来。

目前,「Biomni:首个通用型生物医学智能体」已上线至 HyperAI 超神经官网(hyper.ai)的「教程」板块,一键部署即可在线体验。仅需输入生物医学任务指令,便可开启自动化分析流程,快来体验吧!教程链接:

https://go.hyper.ai/Mox9F

我们还为新注册用户准备了惊喜福利,使用邀请码「Biomni」注册 OpenBayes 平台,即可获得 5 小时 RTX A6000 免费使用时长(资源有效期为 1 个月),数量有限,先到先得!

Demo 运行

1. 进入 hyper.ai 首页后,选择「教程」页面,并选择「Biomni:首个通用型生物医学智能体」,点击「在线运行此教程」。

2. 页面跳转后,点击右上角「克隆」,将该教程克隆至自己的容器中。

3. 选择「NVIDIA RTX A6000」以及「vllm」镜像,OpenBayes 平台提供了 4 种计费方式,大家可以按照需求选择「按量付费」或「包日/周/月」,点击「继续执行」。新用户使用下方邀请链接注册,可获得 4 小时 RTX 4090 + 5 小时 CPU 的免费时长!

HyperAI 超神经专属邀请链接(直接复制到浏览器打开):
https://openbayes.com/console/signup?r=Ada0322_NR0n

4. 等待分配资源,首次克隆需等待 2 分钟左右的时间。当状态变为「运行中」后,点击「打开工作空间」,即可跳转至 Demo 页面。

5. 双击左侧目录栏的项目名称,即可开始使用,运行至「3 、使用自然语言执行生物医学任务」,即可输入 prompt 。

效果演示

示例 prompt:Plan a CRISPR screen to identify genes that regulate T cell exhaustion, generate 32 genes that maximize the perturbation effect.

效果如下所示:

以上就是 HyperAI 超神经本次推荐的教程,欢迎感兴趣的读者前来体验 ⬇️

教程链接:
https://go.hyper.ai/Mox9F

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值