Incorporating biological structure into machine learning models in biomedicine
Introduction
将生物医学知识纳入机器学习模型可以揭示嘈杂数据中的模式,并有助于模型解释。
生物知识可以采取多种形式,包括基因组序列,途径数据库,基因相互作用网络和知识层次结构,例如基因本体论。
Sequence models
方法概述
早期的神经网络模型主要将人工参与的序列特征作为全连接神经网络的输入。

将2D空间中附近的图像像素或者线性基因组中附近的碱基对分组,作为CNN的输入,CNN可对其提取特征以进行预测。
eg. Angermueller
应用
regulatory biology 调节生物学
-
处理大量数据
BPNet:预测DNA序列的转录因子结合谱的DNA,可以精确定位小鼠胚胎干细胞中结合基序的已知位置。考虑每个位置上下1000个碱基对。
cDeepbind:将RNA序列与有关二级结构的信息结合在一起,以预测RNA结合蛋白的亲和力。它的CNN结合了序列和结构信息的特征向量。
APARENT
-
考虑序列上下文的模型
DeepSignal
MRCNN
variant calling and mutation detection 变异调用和突变检测
-
用CNN
DeepVariant
PacBio and Oxford Nanopore
-
用手工设计的序列特征作为分类起的输入
insertion/deletion call- ing
Network-based and pathway-based models
方法概述
许多机器学习模型对缺乏内在顺序的输入进行操作。
为了说明基因之间的关系,在进行预测或生成数据的低维表示时,可能会合并已知的相互作用或相关性。常见方法:使用网络或基因集合将数据嵌入到低维空间,同一基因集或网络中连接良好的基因在低维空间中具有相似的表示。(下图:行是样本,列是基因)

应用
PacBio and Oxford Nanopore转录组学
-
采用gene sets
PLIER——Multi-PLIER
PASNet (This approach aids interpretation, as pathway nodes in the network with high weights can be inferred to correspond to certain pathways in GBM outcome prediction.)
-
用网络表示基因水平的关系(网络节点通常代表基因,而实际值边缘可能代表基因之间的相互作用或相关性)
早期:基于网络的分层
最近:netNMF-sc——coexpression networks;PIMKL;
-
基因调控网络(描述了基因表达如何通过生物调节因子调节的)也可以增强基因表达数据的模型。
creNET
GRRANN
genetics遗传学
-
最近的应用包括expression quantitative trait loci (eQTL) mapping studies,其目的是鉴定遗传变异与基因表达之间的联系。
netReg
-
eQTL信息也与遗传变异信息结合使用,以预测表型
Mendelian ran- domization (MR)
Other models
- 有关生物实体的知识通常以本体进行组织,该本体是对实体之间的关系进行编码的有向图。

DCell:use GO(The Gene Ontology (GO) [3] describes the relationships between cellular subsystems and other attributes describing proteins or genes). 性能和未受约束的神经网络相当,但是可解释性强。
DeepGO: 和上面相似的方法。但后续论文发现这种层次结构感知方法可以被无层次意识的CNN所超越。
-
系统发育树(Phylogenetic trees)或描述物种之间进化关系的层次结构
glmmTree
-
其他形式的结构或先验知识可以为模型输出的预测和解释提供依据
CYCLOPS
NetBiTE