论文《Predicting circRNA–disease associations with shared units and multi-channel attention mechanisms》

文章:预测具有共享单元和多通道注意力机制的circRNA -疾病关联

原文链接:https://academic.oup.com/bioinformatics/article/41/3/btaf088/8056035

大多数方法未能充分挖掘跨视图的潜在信息,同时忽略了不同视图贡献不同程度的重要性这一事实。

circRNA -疾病关联的预测模型分为三类:网络传播模型、传统机器学习模型和深度学习模型

基于网络的方法通过使用已知关联构建异构网络并计算它们的相似度来预测新的关联,但它们往往过于强调相似性得分。

传统的基于机器学习的模型通过使用人工提取的特征训练分类器来预测关联,但其性能严重依赖于提取的特征。

基于深度学习的方法擅长潜在特征的提取,而且利用多视图提取更加丰富的信息,但没有有效地利用不同视图之间的潜在特征。

作者提出了MSMCDA,一种利用共享单元和注意力机制进行circRNA-疾病关联预测的新方法。首先,MSMCDA为circRNA和疾病构建相似性和元路径网络,并设计共享单元,以方便相似性和元路径网络之间的信息交换和融合。然后,我们使用注意力机制来合并多个相似性网络中的特征。最后,通过对比学习增强相似网络的特征,并使用MLP分类器来预测关联。

1 ) MSMCDA引入了便于跨视图特征交互的共享单元,实现了融合过程中的互补集成,捕获了潜在的跨视图信息。

2 ) MSMCDA使用注意力机制为不同相似性网络的特征分配不同的重要性等级。

3 ) MSMCDA引入了一种对比学习方法来充分利用视图间的互补信息,通过对齐相似特征和区分不相似特征来增强特征,从而提高模型捕获有意义信息的能力。

circRNAs与疾病相似性网络构建

相似性的度量采用两种方法:语义相似性和高斯核(GIP)相似性用于疾病,而功能相似性和GIP相似性用于circRNA。

疾病相似性网络的构建

作者从疾病本体数据集中检索每个疾病的疾病本体标识( Disease Ontology Identity,DOID )用于疾病语义相似度,并使用R语言包中提供的Dosim函数计算相似度。在疾病本体框架中,每个疾病由一个有向无环图( directed acyclic graph,DAG )表示。Dosim函数中的公式定义为:

Ndi指祖先疾病,Sdi(t)量化了疾病t对疾病d的语义贡献。
t=di时,Sdi(t)=1
t≠di时,t'是t的孩子节点

疾病语义相似度数据稀疏,引入GIP相似度来丰富相似度特征信息。根据疾病i和j在关联矩阵中的对应列,使用核函数计算疾病i和j之间的GIP相似性:

di和dj表示关联矩阵的第i列和第j列,ηd表示归一化核带宽。
其中N表示列的个数。

疾病语义相似度网络Gds中的边权重由SD(di,dj)确定;疾病GIP相似性网络Gdg中的边权重由GD(di,dj)确定。

circRNA相似性网络构建

circRNAs的功能相似性表明,具有相似功能的circRNAs往往与相似的疾病相关。用于计算circRNA ci和cj功能相似性的公式如下:

Qi和Qj分别表示与circRNA ci和circRNA cj相关的疾病集合。

与疾病类似,circRNA也利用GIP相似性来丰富相似性信息。

ci和cj分别对应关联矩阵的第i行和第j行,Nc表示行数。

与疾病网络类似,circRNA功能相似性网络Gcf使用FC(ci,cj)定义的边权重;GIP相似性网络Gcg使用GC(ci,cj)定义的边权重。

元路径网络的构建

元路径全面地表示了circRNA和疾病之间的结构联系,使得捕获关联网络内的详细结构信息成为可能。

MSMCDA基于不同的元路径开发了circRNA和疾病的元路径网络。

作者定义了两种元路径:m1=CDC用于circRNAs,m2=DCD用于疾病。利用这些元路径构建了各自的元路径网络。circRNA网络的构建如下:

A表示circRNA -疾病关联网络,AT为关联网络A的转置。

疾病的元路径网络m2由:

Gm1和Gm2中的边权重分别由其对应的Am1和Am2值确定。

多视图相似性网络的特征提取

作者使用GCN从构建的circRNA和疾病网络中提取相似性和元路径特征。该方法能够实现跨网络节点特征的有效集成和增强。经过1层GCN卷积后,circRNAs的更新特征计算如下:

~Sc=Sc+I,Sc为加入标识矩阵I的circRNA相似性网络的邻接矩阵,~Dc为相应的度矩阵,
WSc表示可学习参数,σ为激活函数,HSc表示第l层的circRNA节点特征。

类似地,对于疾病相似性网络Sd,第l+1层的更新嵌入为:

~ Sd=Sd+I 表示疾病相似性网络的邻接矩阵和一个同一性矩阵之和;
~Dd为度矩阵,HSd为第l层中的疾病节点特征。

元路径网络的特征学习过程遵循同样的方法。对于元路径网络Amn(n∈{1,2}),第l+1层节点特征如下:

~Amn是添加了标识矩阵的元路径网络的邻接矩阵,
~D是其度矩阵,H(l)Amn表示第l层中的节点特征。

共享单元

为了增强circRNA和疾病网络中的特征对齐,促进相似性信息和元路径信息之间的跨视图交互,作者引入了一个新颖的共享单元,该单元包括4个线性操作模块,每个模块旨在促进跨视图的相互学习。

以circRNA为例,通过第一个线性模块对GIP相似性网络特征和元路径网络特征进行初步处理。随后,四个可训练权重自适应地确定每个输入特征在每个线性操作中的相对重要性。

H(l+1)s和H(l+1)m分别表示相似度视图和元路径视图的更新特征。
算子O表示逐元素乘法,wTss、wTsm、wTmm和wTms是可训练参数。

共享单元作为视图之间的桥接机制,促进跨视图的特征交互,以迭代地精化输入表示。

共享单元在GIP相似性和元路径视图中都被策略性地定位在GCN的第1层和第2层之间,从而能够在中间表征水平上实现信息的有效整合。

注意力机制

考虑到从不同相似度视图中提取的节点特征对结果的影响不同,作者引入多通道注意力机制来自适应调整每个视图的重要性。

首先,对circRNA相似性视图的重要性系数αc进行如下计算:

GAPc表示全局平均池化,W1和W2表示全连接层,ReLU激活函数用σ表示,sigmoid函数用δ表示。

调整后的circRNA相似性特征计算如下:

其中σ (·)是ReLU激活函数,CNNc表示用于合并多个相似视图的2D卷积神经网络。

重要性系数和调整后的疾病相似性特征被计算为:

其中GAPc表示全局平均池化,W1和W2表示全连接层,
ReLU激活函数用σ表示,sigmoid函数用δ表示。

 对比学习

在训练过程中使用对比学习最大化正样本内的相似性,最小化负样本间的相似性,以提高特征表示。正样本是指同一实体在不同视角下的特征,负样本是指不同实体在不同视角下的特征。

针对circRNAs的对比学习损失定义为:

其中N表示负样本集i≠j,sim(a , b)表示余弦相似度函数。

疾病的对比学习损失遵循相同的方程:

最终解码器

在预测阶段,使用元素乘法将circRNA和疾病特征相结合,然后传递到全连接层。随后,使用sigmoid激活函数输出最终的预测评分。

其中Hci和Hdj分别表示circRNAs ci和疾病dj的嵌入。
操作O表示元素级乘法,FNN为全连接层。sigmoid函数为激活函数。

为了优化整个模型,本研究使用了二元交叉熵损失,定义为:

其中,Y+和Y-分别表示训练数据中的正负样本。当(i,j)∈Y+,实际标签设置为1;否则,将其设为0。

MSMCDA的最终损失函数L由下式给出,它集成了对比学习策略的两个损失函数:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值