单细胞测量技术的进步使我们能够以前所未有的视角洞察单细胞转录图谱,并且当与大规模扰动筛选相结合时,能够测量靶向扰动对整个转录组的影响。这些进展为更好地理解基因在复杂生物过程中的因果作用提供了契机。该展望阐述了因果机器学习在单细胞基因组学中的应用以及相关的挑战。该文首先介绍了最常用于单细胞生物学的因果模型,然后确定并讨论了针对三个悬而未决问题的潜在解决方法:模型难以推广到新的实验条件、解读已学习模型的复杂性,以及学习细胞动态变化的困难。
来自:Tejada-Lapuerta, A., Bertin, P., Bauer, S. et al. Causal machine learning for single-cell genomics. Nat Genet (2025). https://doi.org/10.1038/s41588-025-02124-2
背景概述
在单细胞分辨率下进行分子谱分析的技术进步,为研究细胞过程提供了前所未有的视角。机器学习已开始应用于单细胞基因组学领域,并做出了重要贡献,例如降维(主要用于可视化)、数据整合(用于构建细胞图谱)、轨迹推断(用于推断细胞命运)以及跨模态标签迁移等。然而,这些方法对于细胞潜在生物学过程的理解仍然有限。
大多数应用于单细胞基因组学的机器学习方法都建立在非因果统计学习的基础之上,这种学习方式利用的是特定数据分布中的模式。然而,当实验条件发生变化时,数据分布也会相应改变;因此,先前识别出的模式可能不再适用,非因果统计学习方法可能无法进行有效推广。因果机器学习(如图1a所示)旨在通过发现与(一系列)生物化学相互作用相对应的生物学机制来实现对新条件下的良好预测,其中这些生物化学相互作用体现了一个生物量如何影响另一个生物量。这与通过统计学习捕捉到的虚假相关性(这些相关性并不能反映潜在的生物化学相互作用)形成对比,而虚假相关性通常会导致在条件变化时预测效果不佳。在诸如小分子或CRISPR干扰等情境中(如图1b所示),即使实验条件有所变化,大多数生物学机制仍有望保持不变(类似于物理规律的恒定性),而这些情境正是该展望的重点内容。不过,在某些情况下,例如温度和压力的变化,大多数机制可能会直接受到影响,此时就需要了解因果机制对这些因素的依赖性。更广泛地说,如果实验条件的任何方面,无论是技术层面还是生物层面,发生了过于剧烈的变化,机制也可能会随之改变。
- 图1a:生物干扰或环境变化会影响细胞机制,从而导致基因表达以及其他可测量结果发生改变。这些细胞机制的变化可以通过在因果模型中进行干预来模拟,以便预测不同条件下的基因表达情况和结果。KO 代表基因敲除。
- 图1b:利用一个包含受不同生物干扰影响的各种细胞类型的观测数据集,统计学习方法(如上方所示)能够对训练数据中存在的细胞类型和干扰情况的结果进行预测。然而,对于新的干扰情况或新的细胞类型,这些方法往往无法准确预测其结果,而因果学习方法(如下方所示)则致力于解决这一难题。
当因果推断方法的一些核心独立性假设被违背,或者模型设定错误时,这些方法可能会失效。假设条件的违背可能会导致在未知条件下做出错误的预测,并得出不准确的结论。不确定性估计有助于避免出现看似可靠但实则错误的预测。
在基因组学领域,长期以来人们一直致力于发现基因之间的相互作用,以便为生物过程提供机理解释,这些解释通常通过模块网络(即将功能协同且表达紧密相关的基因归为一组,即模块)进行总结,或者通过包含从调控基因到被调控基因的有向连接的基因调控网络(GRNs)来呈现。此外,传统上应用于诸如蛋白质免疫印迹和定量聚合酶链式反应(qPCR)等小规模数据的系统生物学的机制和动力学方法,如今正被应用于大规模基因组数据。主要是为了检测相互之间存在直接相互作用的基因对。也有大量的研究工作致力于通过使用多模态数据来改进基因调控网络的推断(例如,根据scATAC-seq所测量的转录因子结合位点的可及性,以及已知的转录因子结合位点等先验知识,来限制基因调控网络中可能存在的边的集合)。验证推断出的基因调控网络一直是一个重大挑战,尤其是在人类细胞中,其真正的基因调控网络在很大程度上仍然未知,并且高度依赖于具体情境。其他生物体,如大肠杆菌,人们对其的了解更为深入,并且存在一些关于其基因调控网络的数据库,但这些数据库仍然存在噪声且不完整。
扰动数据的日益丰富可能会提高因果方法在转录组学中的适用性。该展望的目的是识别和分析该领域中尚未解决的问题,并结合当前的研究方向对这些问题进行审视。在提供了一些关于遗传学和转录组学中因果推断技术的背景知识之后,该展望介绍了当前大多数单细胞生物学因果方法所基于的因果模型。然后,讨论了三个尚未解决的问题,即难以推广到新的实验条件、解读已学习模型的复杂性以及学习细胞动态变化的困难。
转录组中的因果
单细胞分辨率能给出细胞异质性的精细细节,有助于发现不同细胞类型中起作用的独特机制。然而,获得这种分辨率的同时也伴随着一些弊端,比如观测数据中噪声更多,还存在诸如技术层面的“dropout”。
一个单细胞实验通常涉及处于特定环境中的一群细胞。在这里,“环境”的概念既包括细胞群体的特征(例如细胞类型信息),也涵盖实验方案方面的信息,比如细胞所接触的生物扰动因素,或者进行实验所使用的设备等。这种对“环境”的定义与因果关系研究领域所使用的术语一致。
因果模型通常可以分解为两个部分。第一部分对生物机制进行建模(通常是通过因果图),而第二部分则对这些机制如何受到生物扰动的影响进行建模,通常是一种边移除操作(也就是说,假设扰动会移除某些特定的相互作用,这些相互作用在因果图中不再由边来表示),或者说对机制在不同环境中如何变化进行建模。
细胞中的因果图
在一个细胞内,生物机制可以用因果图来描绘,图中的节点表示基因,边则表示基因之间的因果关系。一条边从“父”节点指向“子”节点,这意味着子节点的基因表达水平取决于父节点的表达水平。这种表示方法被称为结构因果模型(SCM),它将节点定义为因果变量,并将控制一个基因相对于其父基因表达的函数定义为因果机制。在细胞生物学的背景下,因果机制对应于生物机制,通常是转录调控(图2a)。大多数应用于单细胞基因组学的因果方法都基于这个模型及其所包含的假设。需要注意的是,因果模型并不总是依赖于一个明确的图。在某些情况下,图并没有被明确构建,但可以通过模型的内部依赖关系来推导得出。
默认的结构因果模型(SCM)存在一些局限性。首先,因果图必须是无环的,这样才能生成模拟的细胞观测数据:先对根节点(即没有入边的节点)的基因表达水平进行采样,然后是这些根节点直接子节点的表达水平(以父节点的值为条件),依此类推,直到对所有节点都完成采样。这与真实的基因调控网络(GRNs)形成了鲜明对比,在真实的基因调控网络中,循环相互作用作为调控基序的一部分是很常见的,比如自我调控或反馈回路。此外,默认的结构因果模型缺少时间维度,这限制了它捕捉转录调控动态方面的能力。最后,该模型只考虑了基因表达水平,但实际上,还有许多其他变量,例如转录因子的水平,以及给定基因的不同剪接变体的比例等,也在转录调控中发挥着作用。
- 图2a:通过结构因果模型对细胞进行建模。边表示基因之间的因果关系,对应于转录调控。在对细胞不进行任何干预的情况下,该模型会生成与对照细胞相关的表达谱。在此处,基因G1和G3是基因G2的因果父基因,这意味着基因G2的值是基于基因G1和G3的值来确定的。图中不允许存在循环相互作用。
- 图2b:在结构因果模型中,扰动被简单地视为完全干预,这会完全消除目标变量对其调控因子的依赖。因此,基因G4的表达水平由干预直接设定,因为它不再依赖于基因G2和G5的表达。
- 图2c:对生物扰动进行建模的一种更准确的方法是允许多个目标,以此来考虑干预目标中的不确定性,以及对调控因子依赖关系的不完全消除的情况。(intervention-干涉,imperfect-不完全,alter-改变)
生物扰动作为因果干预
生物扰动是指生物系统正常功能所受到的干扰或改变,通常是通过实验手段引发的,目的是研究系统的反应并了解其潜在机制。在结构因果模型(SCM)中,扰动的影响可以通过所谓的干预措施在因果图中重现,具体做法是操控实验中作为目标的特定变量或因果机制。通常所假定的完全干预会消除被干预的因果变量对其因果父变量的依赖(如图2b所示)。该变量被设为零,以表示目标转录本的功能完全丧失,且与调控它的变量的值无关。
在实际情况中,完全干预这一假设的适用性是有限的。有证据表明,CRISPR基因敲除存在脱靶效应。同样,药物扰动通常也不能用完全干预来近似模拟。这是因为药物的作用机制并不总是已知的,而且在很多情况下,药物并不会直接影响转录调控机制。
生物扰动的确切性质在很大程度上仍然未知,我们可以依靠不同的建模选择(我们称之为干预模型)在因果图中表示扰动的影响。可以考虑:从一次移除或修改多条边的参数的干预模型(这有助于模拟脱靶效应,如图2c所示),到考虑不确定性或在图中创建新边的干预模型。这意味着每种类型的干预都需要一个尽可能接近真实生物扰动的建模框架。
三个与因果学习相关的sc问题
在新实验条件中推广-结合不确定性与主动学习
通常情况下,我们只能获取到一组有限的先前已获得的条件数据。在这样的数据上训练的模型可能难以推广到差异很大的实验条件中。因此,了解模型的预测在何时是可信的就极为重要。为此,一种常见的方法是设计这样的模型:对于给定的输入,它能给出一个预测分布,而不是单一的预测结果。如果这个预测分布涵盖了很广泛的值域,那么就认为不确定性很高。在因果建模中,这扩展到了获取图结构上的概率。
下一步是利用模型的预测和不确定性来指导未来实验的设计。目标是设计出能够在最少数量的实验中减少不确定性的策略,这个过程被称为主动学习,或者使某些属性(例如一种表型、给定细胞类型的比例)最大化,这被称为顺序模型优化或贝叶斯优化。基于预测结果和从不确定性估计中得出的信息,对未来的实验给出建议。这些顺序方法已经被调整以适应因果模型的背景,从而推荐有信息价值的干预措施。
学习可解释的模型-引入潜在因果变量
计算生物学的另一个重大挑战是能够从模型中得出生物学见解。当一个模型(或其部分)所执行的操作能够与已知过程(例如转录组调控)相关联,并且它所计算的值能够与已知且可测量的生物学量(例如特定分子的浓度)相关联时,我们就认为这个模型(或其部分)是可解释的。这样一种可解释的视角能够帮助生物学家从模型中提取有意义的见解,提出新的实验方案,并加深我们对细胞系统的理解。
在实践中,基因组规模的模型包含众多相互作用的变量,这使得人们很难从整体上把握,而分别分析模型的各个子部分可能会更容易些。然而,为了使这样的分析有意义,因果相互作用需要是稀疏的,并且能够形成合理独立的簇(对应于通路或基因模块),以便能够分别进行解释。实际上,细胞内的大多数实体通常只与有限数量的其他实体直接相互作用,例如在已知的蛋白质 - 蛋白质相互作用网络的极度稀疏性中就可以看到这一点。
潜在变量可以表示生成过程的任何方面,因此是一个广泛的概念。如果它们在因果模型中所起的作用与观测到的因果变量类似,即它们依赖并影响其他因果变量(无论是潜在的还是观测到的),并且它们之间的机制在不同环境中保持不变,那么它们就被认为是因果变量。它们有望捕捉参与细胞机制的生物学量,但这些量并不能直接被观测到。非因果潜在变量的一个例子是那些用于捕捉真实基因表达水平的变量:这些变量通过负二项分布与观测到的基因计数相关联。这种"dropout"模拟反映的是数据采集协议的某些方面,而不是潜在的生物系统。这样的非因果潜在变量有助于区分特定技术特征和真实的生物学特性。
- 图3a:像空间环境的影响这类难以建模的复杂细胞过程,可以通过潜在变量来捕捉,并作为额外的因果变量纳入因果图中(如右侧所示)。然而,这些学习得到的潜在变量可能难以解释。
- 图3b:在因果模型中纳入潜在变量可能会解决算法上的局限性,比如因果图中存在循环过程的问题。在此处,基因1和基因2参与了一个双稳态机制,并且相互下调。这就产生了两种稳定状态,即只有一个基因(G1或G2)表达,而另一个不表达。无需直接对循环结构进行建模,而是可以在模型中纳入一个潜在变量,该变量说明了双稳态机制的当前状态。
学习因果动力模型
到目前为止所讨论的因果模型中,时间因素并未被考虑在内,并且因果变量之间的关系是基于静态值来构建的。相比之下,彼得斯(Peters)等人提出的因果动力学模型(如图 4a 所示)纳入了时间信息,并考虑了系统的动态特性。更确切地说,这些模型假设因果变量的变化速率由常微分方程(ODEs)所控制,并且取决于一小组父变量的表达情况。例如,这样的模型可以解释在分化过程中出现的分支现象(如图 4b 所示)。有趣的是,像自调控这样的循环结构对于这类因果模型来说并不构成任何困难,在这些模型中,细胞被构建为一个动态系统(如图 4c 所示)。将因果动力学模型应用于单细胞基因组学的主要困难在于,单细胞数据仅反映了一个瞬间的情况,因为细胞在被测量之前就被破坏了,所以只能在单个时间点进行观测。克服这一局限性的一种策略是使用拟时间推断方法(图 4d),这种方法将每个细胞与不同的拟时间相关联,重现其分化阶段。通过依赖拟时间,动力学模型已被应用于单细胞数据,其中与每个细胞相关联的拟时间信息被用于构建多组细胞序列,动力学模型就基于这些序列进行训练。然而,拟时间分析方法的性能取决于数据中的轨迹类型,而这往往是未知的。
- 图4a. 细胞因果动力学模型概述。在此模型中,变量代表基因表达水平,且这些变量明显与时间相关。随着时间推移,它们的变化发展是其因果父变量的函数。干预措施的应用方式可以和在更简单的因果模型中一样,并且可以学习潜在变量。不过,此时的因果图包含了循环调控基序和自我调控。
- 图4b. 细胞发育是一个动态过程,可以用常微分方程或随机微分方程来建模。这类模型能够解释分支现象,在这种现象中,由相似机制驱动的细胞会朝着与不同表达谱相关的不同细胞类型演化。iPSC即诱导多能干细胞。
- 图4c. 因果动力学模型能够解释循环调控基序。在调控机制(左图)中,基因G1和G2相互下调,形成一个反馈回路,构成了一个循环。这种循环结构给结构因果模型(SCMs)带来了算法上的挑战,因为结构因果模型通常需要无环图来定义清晰的因果关系。在右图中,该系统被表示为一个与时间相关的动力学模型,其中在时间t时基因G1和G2的表达水平会影响它们在t + dt时刻的状态。这种方法可以追踪基因表达随时间的演变,从而绕过了静态因果模型中循环结构所带来的限制。
- 图4d. 用于训练因果动力学模型的数据准备策略。在这里,可以使用多个采集时间点,或者可以赋予每个细胞特定的拟时间,以获得多组表达谱序列,然后将这些序列用于构建时间动态的训练数据。这些时间表达谱使模型能够近似模拟基因表达随时间变化的因果关系,有可能揭示细胞过程潜在的动力学机制。