细胞对于理解健康和疾病至关重要。AI和组学数据的进步为创建虚拟细胞 (AIVC) 提供了机会,这将是一种多尺度、多模态的大型神经网络模型,可以表示和模拟不同状态下的分子、细胞和组织。
来自:How to build the virtual cell with artificial intelligence: Priorities and opportunities, Cell, 2024
目录
背景概述
细胞是生命的基本单位,是一种奇妙而复杂的实体,其特性和行为挑战了物理和计算建模的极限。每个细胞都是一个动态且自适应的系统,其中复杂的行为来自无数的分子相互作用。有些方面对干扰非常敏感,例如基因的消除或用来自不同物种的同源物替换它们。其他方面甚至对看似微小的干扰也很敏感,例如点突变或导致细胞功能障碍和疾病的外部因素。
为了了解细胞的功能,科学家们试图构建虚拟细胞模型来模拟、预测和引导细胞行为。基于这一愿景,作者使用术语AIVC来定义模拟细胞生物功能和相互作用的计算模型。现有的细胞模型通常基于规则,并将对潜在生物机制的假设与从观察数据拟合的参数相结合。它们通常依赖于明确定义的数学或计算方法,例如微分方程、随机模拟、或基于代理的模型。它们的复杂程度各不相同,涵盖细胞生物学的不同定义方面,例如转录和翻译、细胞骨架驱动的细胞行为、生化网络、或代谢通量。第一个全细胞模型于 2012 年开发,代表了一种生物体已知的所有 482 个基因和分子功能:细菌生殖分枝杆菌。自这项开创性工作以来,已经开发出全基因组模型来代表其他细菌生物,包括大肠杆菌。
尽管迄今为止的方法在生物系统建模中得到了广泛应用,但它们仍未能捕捉到细菌和更复杂系统(如人类细胞)的运作。挑战包括:
- (1)多尺度建模:细胞在时间和空间的多个尺度上运作,从原子到分子到细胞和组织学,其功能特性通过从一个尺度到另一个尺度的非线性变换而显现出来。
- (2)具有大量相互作用成分的多样化过程:细胞功能包含许多相互作用的过程,例如基因调控、代谢途径和信号转导。每个过程都涉及多种生物分子,它们处于多样化和动态的状态。
- (3)非线性动力学:大多数细胞过程都是高度非线性的,因此输入的微小变化会导致输出的复杂变化。因此,尽管在建模特定细胞过程方面取得了进展,但这些因素共同对虚拟细胞的构建构成了重大障碍。
科学技术领域的两场激动人心的革命——人工智能和组学——现在使得构建直接从数据中学习的细胞模型成为可能。这些平行的革命为AIVC的愿景提供了机会,AIVC 是一种多尺度、多模态、基于大型神经网络的模型,可以表示和模拟不同状态下分子、细胞和组织的行为(图 1)。
在实验方面,测量技术吞吐量的指数级增长促进在不同细胞和组织系统内和跨细胞和组织系统收集大量的数据集,过去几年中数据每 6 个月翻一番。在计算方面,人工智能的进步增强了我们直接从数据中学习模式的能力,而无需明确的规则或人工注释。此类建模范例已成功用于生物分子领域,例如,从序列和不同分子成分之间的相互作用预测3D分子结构。人工智能中的最新建模方法提供了满足预测性、生成性和可查询性的表示和推理工具,这是推进生物研究的实用工具。基于这些特性,我们认为我们现在有了开发完全由数据驱动的基于神经网络的 AIVC 表示的方法,它可以通过快速的计算机模拟来加速生物医学的研究,并在计算和湿实验之间建立桥梁(图 1)。
- 图1A) AIVC 提供了一种细胞状态的通用表示 (UR,universal representation),该表示可以在不同物种和条件下获得,并且可以从不同尺度(分子、细胞和多细胞)的不同数据模式生成。
- 图1B) AIVC 具有表示和预测细胞生物学的能力。这种通用性使该表示可以作为参考,可以推广到以前未观察到的细胞状态,为未来的数据生成提供指导。由于表示在各种模态之间共享,因此它对于用于生成它的特定数据类型也保持不变,可作为跨模态统一分析的虚拟表示。AIVC 还允许对细胞在不同状态之间转换时的动态进行建模,无论是由于分化等过程自然发生,还是由于遗传变异或通过人工干扰而发生。因此,AIVC 使计算机实验成为可能,否则在实验室中成本高昂或不可能实现。
- 图1C) AIVC 的效用取决于它与不同层次的人类的互动。在个人科学家层面,它必须通过开放许可和计算资源的民主化来实现。可解释性可以通过中间层建立,例如允许虚拟细胞有效传达其结果的语言模型。在科学界层面,评估 AIVC 应该侧重于超越狭隘基准的核心能力。社区发展对于持续改进可访问的虚拟细胞至关重要。在社会层面,AIVC 必须确保其内容的隐私性以保护敏感数据。
AIVC 的创建将开启生物学模拟时代,癌症生物学家可以模拟特定突变如何使细胞从健康转变为恶性;发育生物学家可以预测发育谱系如何响应特定祖细胞的扰动而进化;微生物学家可以预测病毒感染不仅对受感染细胞而且对其宿主生物的影响。AIVC 将通过假设的生成方式,使生物学家发现新见解。尽管细胞模型可能并不总是直接识别机械的关系,但它们可以被视为有效缩小机械搜索空间的工具,从而加速发现细胞功能背后的潜在因素。
这篇文章基于广泛的社区讨论,描述了由细胞生物学AI的新兴进展及其在构建细胞虚拟表示中的应用所催化的愿景。作者列出了数据生成、人工智能模型、基准测试、解释以及确保生物准确性和安全性方面的优先事项(方框 1)。通过鼓励开放科学领域的跨学科合作(涵盖学术界、慈善事业以及生物制药和人工智能行业),作者认为全面了解细胞机制是可以实现的。AIVC 有可能彻底改变科学过程,促进对新生物学原理的理解,并增强人类智能,为可编程生物学、药物发现和个性化医疗的未来突破奠定基础(方框 2)。
方框1:构建AIVC所面临的重大挑战
勾勒能力范围并设计评估框架
生物学领域新兴的大量基础模型具备AIVC的部分能力。鉴于这些方法的多样性,明确AIVC的核心能力应当是什么以及如何评估这些能力至关重要。对于每一项能力,都必须设计合适的指标,并收集全面的评估数据。模型的能力应从总体性能以及回答特定生物学问题的能力两方面进行评估。必须随着AIVC模型的发展不断完善基准测试,确保其与具有生物学意义的目标相一致。随着该领域在这些问题上达成更好的共识,合作机会将不断涌现,虚拟细胞的生成速度也将加快。
在不同架构和多样环境中建立自洽性
生物学极其复杂:它在不同尺度、不同环境下运行,并通过不同方式进行测量。AIVC模型必须在所有这些维度上保持自洽。模型应在物理尺度上传递功能——在测量结合亲和力、基因表达、细胞间通讯或组织构建时,分子间的相互作用应产生一致的效果。随着物理和动态尺度在范围和规模上的扩大,诸如物种、细胞类型、组织、疾病状态等额外背景信息应在较小分辨率下对预测结果进行微调,同时还要考虑随机性。模型预测也应不受输入和输出方式的影响。通过不同技术分析的同一实体,在AIVC中应具有相同的内部表征。为了恰当地模拟这种复杂行为,应探索多种机器学习方法。
平衡可解释性与生物学实用性
深度学习方法在生物学领域的应用呈现出一种持续的趋势,随着基础模型的兴起,这种趋势愈发明显,即模型性能提升与日益不可解释的“黑箱”特性之间存在权衡。最终评判AIVC模型的标准将是其拓展我们对生物学理解的能力,无论是通过为生物学过程提供新见解,还是通过加速科学研究进程。为实现这一目标,AIVC模型必须做出高度准确且经过良好校准的模拟生物学的预测,必须在可操作性与可解释性之间取得平衡。可操作的模型输出对于设计经济高效的验证实验具有很高的实用价值,是最初实际应用的关键。目前存在多种解释模型预测的方法,包括因果建模、稀疏特征化,这是一个非常活跃的研究领域。构建直观的界面,借助诸如人工智能研究代理等其他模型来促进对AIVC的研究和解读,将进一步提高其下游实用性。
构建协作式细胞建模框架
AIVC的成功开发需要跨学科协作。可以预见未来AIVC平台将成为开放、相互连接的枢纽,用于细胞模型的协作开发,并广泛部署给研究人员,同时也将成为教育枢纽,为研究人员提供培训,并为教育工作者、患者和公众开展参与性活动。因此,对促进AIVC开放协作开发的基础设施的投资应成为高度优先事项。