Information Fusion 2019
文章目录
- Abstract
- 1. Introduction
- 2. Challenges in data integration for biology and medicine
- 3. Conceptual organization of methods for data integration
- 4. Focus of this Review
- 5. Epigenomic variation and gene regulation
- 6. Noncoding variant effects
- 7. Integrative single-cell analysis
- 8. Cellular phenotype and function
- 9. Computational pharmacology
- 10. Disease subtyping and biomarker discovery
- 11. Challenges and future directions
- 12. Conclusion
Abstract
新技术使人们能够以前所未有的规模和多个维度研究生物学和人类健康。 这些维度包括描述基因组,表观基因组,转录组,微生物组,表型和生活方式的众多属性。但是,没有任何一种数据类型可以捕获与了解某种现象(例如疾病)相关的所有因素的复杂性。 因此,结合多种技术的数据的集成方法已成为重要的统计和计算方法。开发此类方法的主要挑战是确定有效模型以提供全面且相关的系统视图。 理想的方法可以通过利用跨生物学变动多个维度的异构数据来回答生物学或医学问题,识别重要特征并预测结果。在这篇评论中,我们描述了数据集成的原理,并讨论了当前的方法和可用的实现。 我们提供了生物学和医学领域成功进行数据集成的示例。 最后,我们讨论了生物医学整合方法中的当前挑战以及我们对该领域未来发展的看法。
1. Introduction
了解复杂的生物系统一直是许多研究人员的不懈追求。 高通量测序成本的快速下降,大规模并行技术的发展以及新的传感器技术,使得能够生成描述多维生物系统的数据。这些包括DNA序列[1],表观基因组状态[2],单细胞基因表达活性[3],蛋白质组学[4],功能和表型测量[5]以及生态和生活方式特性[6]。在过去的十年中,数据生成的这些技术进步驱动了生物信息学领域,随着研究人员开发数据分析工具,生成的数据量不断增加。 这些数据类型中有许多具有关联的分析方法,这些分析方法旨在专门检查一种数据类型。使用这些方法,我们聚集了一些生物结构的困惑。 但是,通常,了解一种现象(如疾病)所必需的因素无法通过单个数据类型来捕获(图1)。因此,生物学和医学的许多复杂性仍然无法解释。 如果该领域严格依赖于单一数据类型的研究,则永远不会解释。

Fig. 1 数据整合在生物医学中的重要性。仅考虑单一数据类型的变化可能会错过许多重要的模式,这些模式只有通过考虑生物医学数据的多个级别才能观察到。图1种显示的是使用疾病诊断作为关注点的假设示例。 当新的病人到达诊所时,(a)领域专家对患者的基因组进行测序,并将其与数据库进行比较,以识别突变和致病基因,(b)使用组织样本进行实验室检查,(c)处理有关患者行为和生活方式的信息。(d)将患者的基因组,转录组和生活方式信息与精选的生物医学知识(例如疾病和代谢途径)数据库相结合。最后,机器学习算法可以预测患者在不久的将来患上特定疾病的可能性。 为了做出准确的预测,机器学习模型需要使用许多不同类型的数据。 此示例说明,只有通过分析多种类型的患者数据才能做出准确的预测。
理想情况下,可以结合不同类型的数据来创建细胞,人类健康和疾病的整体图。 研究人员已经开发出多种方法来完成此任务,因此可以应对庞大且异构的生物医学数据带来的挑战。例如,可以通过基于家庭和人群的数据中的关联研究来识别DNA序列变异,然后将其与分子途径信息整合在一起,以预测患上特定疾病的风险[7]。数据集成可能具有多种含义,但是,这里使用它来表示将广义上不同类型的生物医学数据组合为预测变量的过程,从而可以对生物医学相关结果进行更彻底,更全面的建模。如前所述(例如[8-10]),与仅使用单一数据类型的方法相比,数据整合方法可以实现对生物医学数据的更彻底和更有益的分析。组合多种数据类型可以补偿任何单一数据类型中丢失或不可靠的信息,并且指向同一结果的多种证据来源不太可能导致误报。 仅当考虑到从基因组和转录组到生物环境的不同维度的信息时,才可能发现像人体这样的系统的完整模型。在这篇综述中,我们描述了数据集成的原理,并提供了目前用于集成生物医学数据的机器学习方法的分类法。 我们讨论了当前的方法,这些方法的实现及其在生物学和医学中的成功应用。 此外,我们讨论了最佳组合和解释来自多个来源的数据的挑战以及集成多种数据类型的优势。 例如,一种技术可以解决另一种技术的缺点,以提供对人类疾病的更精确的洞察力。 此外,我们提供了有关将来集成数据分析如何发展的观点。
2. Challenges in data integration for biology and medicine
当人们开发机器学习方法以整合生物医学数据时,就会出现一些挑战。 生物和医学数据集的固有复杂性超出了其规模。 生物医学数据集也是高维,不完整,有偏见,异构,动态和嘈杂的。 我们在下面简要描述这些挑战。
生物医学数据通常是高维的但稀疏的。 这与其他领域中的大型数据集(例如社交网络,计算机视觉和自然语言)形成对比,后者通常包含大量高质量的示例。 一个典型的全基因组关联研究(GWAS)[11]基因型为每个个体提供了成千上万的单核苷酸多态性。但是,这些数据通常只能针对数量较少的具有特定表型的个体收集。 此外,这些数据的稀疏性质,即每个多态性仅存在于少数所有个体中,这对下游分析应用提出了额外的挑战。将这些数据转换为具有生物学和临床意义的见解仍然是一项重大挑战。 如果不整合其他类型的数据,例如路径或分子网络信息[12-14],仅GWAS数据就很难确定与目标表型相关的有意义的模式。
另一个重要挑战来自生物医学数据通常不完整和有偏见的性质。 这一挑战源于测量技术的局限性[15],自然和物理约束[11,16]以及调查偏见[17]。例如,即使考虑跨生物体的信息,也只有几千个基因可以获得有关什么化合物与什么基因结合的信息[18]。此外,每个基因的相关化合物数量高度不均[19],许多未表征的基因在药物作用中起重要作用[20]。此外,生物医学数据是按层次结构组织的,涵盖分子,途径,细胞,组织,器官,患者和人群[21-23],并且还涵盖了广泛的时标和物种。 显然,对生物学的全面理解需要多尺度建模,从描述分子的原子细节到有机种群的新兴特性。此外,当生物医学成果随时间变化时,整合成果的机器学习方法需要考虑到这些动态。 例如,癌细胞,细菌和病毒迅速进化以获得耐药性[24],而忽视药物反应的动态可能导致预测药物功效和毒性的性能下降。
生物医学数据科学中的一项基本挑战在于在现有知识领域之外发现新知识,例如,将药物反应从动物模型推算到人类患者身上。现有方法通常假定在其上训练了算法的数据集代表了可以对其应用算法的所有数据。 然而,建立模型来预测例如抗癌药在给定患者中的功效是具有挑战性的,因为新患者可能是独特的并且可能不在训练后的模型的假设空间之内。由于生物医学数据集不完整并反映了迄今为止发现的科学知识,因此只能在这些部分完整的数据集上训练模型,因此当有新数据可用时,其性能可能会很差。 由于这些原因,部署机器学习系统来支持对风险敏感的发现和临床实践中的决策尤其具有挑战性[25],例如,该系统可能会根据特定患者对特定抗癌药物的效用做出相互矛盾的预测,具体取决于 关于用于预测的输入数据的类型。总之,由于生物医学系统的复杂性和相互联系的性质,在任何单个数据集上训练的任何单个模型都只能接触到整个生物医学知识的一小部分。 因此,至关重要的是整合各种信息源,以获得对生物学和医学的全面了解。
3. Conceptual organization of methods for data integration
我们将数据集成方法大致分为两种类型。 我们将在空间和时间尺度上将模型和数据集结合起来的方法称为垂直数据集成,这取决于在几个时间尺度上对细胞,细胞类型,组织,生物和种群模型的集成[23,26,27]。 相反,水平数据集成着重于在某一特定级别[28,29],例如在微生物组[30]或表观基因组级别[2]上组合数据集和模型。从技术上讲,这些方法根据数据集成的分析阶段,实现了以下三种不同的数据集成方法之一[8,31–33](Fig. 2)。早期集成(Fig. 2b)首先将所有数据集转换为单个基于特征的表或基于图形的表示形式,然后将其用作机器学习方法的输入。 从理论上讲,这种方法非常强大,因为只要在分析之前不折叠单个数据集,机器学习方法就可以考虑特征之间的任何类型的依赖关系。早期的集成方法通常依赖于自动特征学习的方法,例如降维[34]和表示学习[35,36],将原始的高维数据集投影到低维向量空间中,然后通过级联或组合这些低维表示。 其他简单的汇总技术。

在后期集成中(Fig. 2d),将分别为每个数据集或数据类型建立一个第一级模型。 然后,通过训练使用第一级模型的预测作为特征的第二级模型或通过获得多数表决或合并第一级模型的预测权重的元预测器[37]来组合这些第一级模型 [38,39]。
中间集成中(Fig. 2c),模型,例如多核学习[40,41],集体矩阵分解[33,42,43]或深度神经网络[44,45]学习了许多数据集的联合表示。中间集成依赖于显式解决数据集多样性并通过联合模型推断将其融合的算法。 重要的是,中间数据集成方法既不合并输入数据,也不为每个数据集开发单独的模型。 相反,它旨在保留数据结构并仅在分析阶段合并它们。 中间集成方法可以带来卓越的性能,但是它通常需要开发一种新算法,并且不能与现成的软件工具一起使用。
最后,数据集成方法可以生成各种类型的预测输出,类似于分析单个数据集的方法(Fig. 3)。特别感兴趣的一个领域是对生物医学实体(例如基因)的定量或分类性质(标记,例如基因功能)的预测。 例如,许多研究整合了许多网络,包括蛋白质-蛋白质和遗传相互作用网络(现在可用于多种生物),以预测导致特定表型或具有特定功能的基因[46,47](第8.1节) )。除了预测单个实体的标签外,许多研究还旨在预测关系,即生物医学实体之间的分子相互作用,功能关联或因果关系。 例如,多核学习方法可以结合从各种数据(例如药物的结构相似性,药物的表型相似性和靶标相似性)衍生的核仁,以预测药物与药物可能靶向的蛋白质之间的新关系[48], 即药物与靶标的相互作用(9.1节)。最后,存在数据集成方法来识别复杂的结构,例如在组合基因相互作用网络中检测到的基因模块或簇[49](第8.2节),并生成结构化的输出,例如从混合数据分布推断出的基因调控网络[50]。 ]。

Fig. 3 数据整合。数据集成方法以统计上有意义的方式组合了多种信息源,以提供对生物医学数据的全面分析。广泛地说,现有方法使用三种不同的策略(即早期,中期和后期整合;另请参见Fig. 2),并产生三种类型的预测输出(即表示实体属于给定类别的概率的标签;一种关系)。 表示两个实体之间关联的概率;以及复杂的结构,例如推断网络或将实体划分为组)。
4. Focus of this Review
这篇综述面向那些对机器学习在生物学和医学领域的最新发展和应用及其在发展生物医学方面的潜

本文探讨了生物医学领域中机器学习与数据集成的最新进展,强调了结合多源异构数据对于揭示疾病本质、预测药物作用及个性化医疗的重要性。文章详细分析了数据集成在基因组学、蛋白质组学、细胞表型分析、药物研发等方面的应用,以及面临的挑战与未来方向。
最低0.47元/天 解锁文章
3283

被折叠的 条评论
为什么被折叠?



