2010(miRNA的功能以及功能相似性)

发现之前看的文章内容,脑袋里又弄混淆了,好记性还是强不过烂笔头,但又不想手写,就记录在博客上好了。

(红色表示重点,橙黄黄色表示需要再了解的知识,蓝色表示本人所理解的意思。)

本文主要内容:

已知具有相似功能的基因常与同类疾病相关,不同疾病的关系可用有向无环图(DAG)结构表示作者通过测量其相关疾病DAG的相似性,推断miRNA功能相似度;提出了一种测量miRNA功能相似性和构建miRNA功能网络的方法。

测量蛋白质编码基因功能相似性以及基因功能网络的构建和分析成果有:

  1. 基于基因表达相似性的基因功能网络构建方法,并将其应用于胶质母细胞瘤基因表达数据后,鉴定了胶质母细胞瘤的重要分子靶点。
  2. 与基因功能相似性和基因功能网络的构建相关的一类广泛使用的方法是通过测量它们的序列或表达相似性。
  3. 基于基因本体的相似性。(基于GO的蛋白质编码基因功能相似性的测量方法)
  4. 相关疾病DAG的相似性,推断miRNA功能相似度。

由于前3种种方法有弊端,对于miRNA来说,尽管序列或表达相似性可以解释部分功能相似性,如蛋白质编码基因,但是基因功能相似性与基因序列或基因表达相似性之间的相关性并不总是存在的,所以采用了相关疾病DAG的相似性,去推断miRNA的功能相似度。

研究方法:

1. 网状疾病DAG结构

图1 乳腺癌的DAG

每个节点由一个描述符和树号组成,该描述符携带一个不变的唯一ID,树号由它的父树号列表组成,该父树号由“;”与所有普通节点分隔。其优点在于从任意一个节点,当我们需要访问它的所有祖先时,可以方便地解析单个树号,而不必查询与之相关的整个DAG。通常,整个DAG被保存在数据库中。因此,当我们有大量数据时,这种组织使得计算速度更快。

2. 人类miRNA疾病关联数据

将产生相同成熟miRNA(如hsa-mir-376a-1和hsa-mir-376a-2)的不同miRNA副本的所有记录合并为一组。进一步将不同成熟的miRNA命名为一个miRNA基因(我认为这里是将miRNA归类,将其用不同的疾病分隔开,在相同疾病下的miRNA具有一定相似性)。最后使用标准网状疾病术语来治疗疾病名称。结果,1395个miRNA疾病关联,包括271个miRNA和137个疾病。

3. miRNA功能相似度的测量方法

关键在于构建miRNA功能网络,帮助理解:MISIM包括四个主要步骤,可以根据两个miRNA的功能相似性来测量,例如MA和MB。首先,与这两个miRNA相关的疾病被识别,表示为DA和DB。其次,根据相应疾病的DAG计算疾病的语义值。第三,根据疾病语义值计算了DA和DB之间的任意一对疾病的语义相似度。最后,基于DA和DB的语义相似度计算MA和MB的功能相似度。

图1被称为DAG,其中节点表示疾病,而链路表示节点之间的关系。只有一种关系,称为“IS-A”,将子节点连接到父节点。每个疾病在DAG中有一个或多个地址,这里称为代码,用于在MESH图中数字地确定其位置。子节点的代码是作为子节点的父节点的代码的定义加上孩子节点的地址组成。例如,乳腺肿瘤的条目有两个可能的地址或代码:C04.588.180和C17.800 .090.500。其相应的父节点是C04.588肿瘤和C17.800.090乳腺疾病(图1)。疾病A可以表示为图,DAG_{A}=(A,T_{A}E_{A}),其中T_{A}是A的所有祖先节点的集合,包括节点A本身,而E_{A}是对应链路的集合。

We define the contribution of a disease t in DAG_{A} to the semantics of disease A as the D value of disease t related to disease A, D_{A}(t), which can be calculated by(这句怎么翻都怪怪的,我不知道我理解对了没,大意是将疾病t在DAG_{A}中对疾病A语义的贡献定义为疾病A与t相关的D值,即D_{A}(t),计算公式如下)

 其中\Delta是边缘(EA)的语义贡献因子,将疾病T与其儿童疾病T联系起来。在疾病A的DAG中,疾病A是最具特异性的疾病,因此我们推论它对自身语义价值的贡献。更远祖先节点对节点A的特殊C语义值贡献较少。所以\Delta应该选择在0到1之间,以减少祖先结点对其的一些干扰。(提高语义贡献度)本文作者在选取了几个值之后,认为当\Delta=0.5时,表达相似性时表现出更好的相关性。(我这里有个小小的疑问,本文作者选取的值为0.5,说表现了更好地相关性,但我实际上并没有看到数据支撑,或者任何最优化算法,此文章是我看的第一篇生物信息类文章,之前我并没有写过或者看过相关论文,这个值感觉取得有些草率,不过全文之前并没有仔细研读,本次精读,可能作者在之后的文字中会有论证,在此先做一个标记)(我把后面的结果仔细看了一下,作者的想法没错,但只说了他的这个方法是如何如何准确,并没有说\Delta值的由来

基于方程(1),我们对疾病A,DV(A)的语义值进行了分析:

例如,“乳腺肿瘤”的DV值为1.0(乳腺肿瘤)+0.5(乳腺疾病)+0.5(按部位的肿瘤)+0.5×0.5(肿瘤)+0.5×0.5(皮肤疾病)+0.5×0.5(皮肤和结缔组织疾病)=2.6250。

由此可以知道两种疾病的语义相似性度量方法(疾病共享较大的DAG往往具有较高的语义相似度)关系如下:

 DA(t)是与疾病A相关的疾病t的语义值,DB(t)是与疾病B相关的疾病t的语义值。公式(3)基于DAG图中这些疾病的地址及其与祖先疾病的语义关系,计算两种疾病的语义相似度。

紧接着,就是得知miRNA功能相似性,我们需要分别考虑与这两个基因相关的类似疾病的贡献。因此,我们需要对一种疾病和一组疾病之间的语义相似性进行研究。这里让我们让“dt”代表一种疾病,让“DT”代表一个疾病组。然后,我们推导出dt和DT的相似度,S(dt,DT),作为疾病和疾病组之间的最大相似度,例如DT={dt_{1}dt_{2},...dt_{k}}。计算如下:

为了更好地描述测量miRNA功能相似性的方法,本文以HSA-miR-103和HSA-miR-151为例。假设DT1代表hsa-mir-103的相关疾病(一组疾病),DT2代表hsa-mir151的相关疾病(另一组疾病)。DT1含有M类疾病,DT2含有N类疾病。两个miRNAs的功能相似性需要考虑所有疾病DT1和DT2。因此,我们研究了两种miRNA的功能相似性:

则可构建miRNA网络:MISIM是miRNA功能相似性的可靠度量,是miRNA功能网络构建中最关键的问题;首先计算MISIM函数相似性系数,设置一个MISIM阈值,例如0.7,以确定两个miRNA是否具有链接。具有大于或等于阈值的MISIM系数的miRNA对,将直接连接,否则它们不直接连接。最后,通过该方法可以构建miRNA功能网络。

结果(结论):

结果就不展开论述了,总的来说就是这个方法构建miRNA的功能网络很准确。还有一些结论,暂且放在这儿:经论证miRNA的功能相似性与表达相似性正相关;同一家族或簇中的miRNAs显示出高的功能相似性。判断功能相似性需要选取好距离,最好在30k到100k之间,变化最小。如果两个内含型miRNA的宿主基因功能相关,那么内含型.NA往往具有更多的功能共同部分。具有MISIM相似度高于0.7的miRNA对在功能上真正相关是高度可靠的。当截止值等于或大于0.7时,链路数保持相对稳定。从表达相关性和共同靶标相关性与功能相似性的结果来看,0.7或0.8截断点适合于构建miRNA功能网络。可预测结点之间的新链接。即表示:新miRNA疾病关联可以通过具有高MISIM相似性的miRNA对来预测。

 

 

论文生僻词:

MESH  medical subject heading terms 医学主题词; 网孔,网眼,网状物; 陷阱,困境

MISIM  miRNA相似性

 

 

评论 12
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值