22、DSNPCMF:预测miRNA - 疾病关联

DSNPCMF:预测miRNA - 疾病关联

1. 疾病语义相似度

疾病语义贡献因子和疾病在有向无环图(DAG)中的贡献值相关。疾病对自身语义值的贡献为1,且随着与其他疾病距离的增加,贡献值会降低。若两个不同疾病与某一疾病的距离相同,则它们的贡献值相同。

疾病语义相似度得分公式如下:
[S_d(d(i), d(j)) = \frac{\sum_{t\in T(d(i))\cap T(d(j))} (DC_{d(i)}(t) + DC_{d(j)}(t))}{DSV(d(i)) + DSV(d(j))}]
与 (S_m) 类似,矩阵 (S_d) 的对角元素为1。

2. 相关工作
  • 高斯交互轮廓核相似度 :基于相似疾病往往与功能相似的miRNA相关的假设,用于表示已知miRNA - 疾病关联网络的拓扑结构。
    • miRNA网络相似度:
      [GIP_{miRNA}(m(i), m(j)) = \exp\left(-\gamma_m |Y(m(i)) - Y(m(j))|^2\right)]
    • 疾病网络相似度:
      [GIP_{disease}(d(i), d(j)) = \exp\left(-\gamma_d |Y(d(i)) - Y(d(j))|^2\right)]
      其中,(\gamma_m) 和 (\gamma_d) 是调整核带宽的参数,(m(i)) 和 (m(j)) 是两个miRNA,(d(i)) 和 (d(j)) 是两个疾病,(Y(m(i))) 和 (Y(m(j))) 分别表示 (m(i)) 和 (m(j)) 的交互轮廓,(Y(d(i))) 和 (Y(d(j))) 分别表示 (d(i)) 和 (d(j)) 的关联轮廓。(m) 是 (Y) 的行数,(d) 是 (Y) 的列数。

miRNA网络相似度矩阵 (K_m) 和疾病网络相似度矩阵 (K_d) 的计算公式如下:
[K_m = \alpha S_m + (1 - \alpha)GIP_{miRNA}]
[K_d = \alpha S_d + (1 - \alpha)GIP_{disease}]
其中,(\alpha) 是一个介于0和1之间的可调参数。

  • 最近邻轮廓(Nearest Profile) :是一个独立的预测模型,可较好地预测潜在的miRNA - 疾病关联。对于新的miRNA (m(i)) 和新的疾病 (d(j)),NP的计算如下:
    [N_m(m(i)) = K_m(m(i), m_{nearest}) \times Y(m_{nearest})]
    [N_d(d(j)) = K_d(d(j), d_{nearest}) \times Y(d_{nearest})]
    NP的处理过程分为四个步骤:

    1. 消除矩阵 (K_m) 和 (K_d) 中的自相似度。
    2. 获取每个miRNA和每个疾病的最近邻。
    3. 将所有miRNA相似度和疾病相似度重置为0。
    4. 分别基于 (K_m) 和 (K_d) 得到miRNA最近邻矩阵 (N_m) 和疾病最近邻矩阵 (N_d)。
  • CMF算法 :传统的CMF是预测新的miRNA - 疾病关联(MDAs)的可靠计算模型。其目标函数定义为:
    [
    \min_{A,B} = |Y - AB^T|_F^2 + \lambda_l (|A|_F^2 + |B|_F^2) + \lambda_m |S_m - AA^T|_F^2 + \lambda_d |S_d - BB^T|_F^2
    ]
    其中,(|\cdot|_F) 是Frobenius范数,(\lambda_l)、(\lambda_m) 和 (\lambda_d) 是非负参数,(Y) 是已知关联矩阵。CMF方法使用正则化项确保相似miRNA和相似疾病的潜在特征向量相似。

3. DSNPCMF预测MDA

基于CMF开发了DSNPCMF计算方法。由于CMF忽略了miRNA和疾病的网络信息,因此将GIP结合到CMF中。使用NP处理miRNA网络相似度矩阵 (K_m) 和疾病网络相似度矩阵 (K_d),分别得到miRNA和疾病的NP,然后将其与miRNA核和疾病核集成。最后,用矩阵 (N_m) 和 (N_d) 替换CMF目标函数中的 (S_m) 和 (S_d)。

此外,添加了 (L_{2,1}) 范数和 (L_1) 范数以增加矩阵 (A) 和 (B) 的稀疏性。DSNPCMF的目标函数如下:
[
\min_{A,B} = |Y - AB^T| F^2 + \lambda_l (|A|_F^2 + |B|_F^2) + \lambda_l (|A| {2,1} + |B|_1) + \lambda_m |N_m - AA^T|_F^2 + \lambda_d |N_d - BB^T|_F^2
]
(\lambda_l)、(\lambda_m) 和 (\lambda_d) 的值通过交叉验证确定,(\lambda_l \in {2^{-2}, 2^{-1}, 2^0, 2^1}),(\lambda_m / \lambda_d \in {2^{-3}, 2^{-2}, 2^{-1}, 2^0, 2^1, 2^2, 2^3, 2^4, 2^5})。

4. A和B的初始化

采用奇异值分解(SVD)方法将 (Y) 分解为 (A) 和 (B),具体公式如下:
[[U, S, V] = SVD(Y, k), A = US_k^{1/2}, B = VS_k^{1/2}]
其中,(S_k) 是包含 (k) 个奇异值的对角矩阵。

5. 优化

使用最小二乘法更新 (A) 和 (B) 直到收敛。设 (L) 表示DSNPCMF的目标函数,令 (\frac{\partial L}{\partial A}) 和 (\frac{\partial L}{\partial B}) 为0来求解 (A) 和 (B) 的表达式。同时,采用五折交叉验证获取 (\lambda_l)、(\lambda_m) 和 (\lambda_d) 的最优值。更新规则如下:
[A = (YB + \lambda_m N_m A) (B^T B + \lambda_l I_k + \lambda_l D_{21} I_k + \lambda_m A^T A)^{-1}]
[B = (Y^T A + \lambda_d N_d B) (A^T A + \lambda_l I_k + \lambda_l D_1 I_k + \lambda_d B^T B)^{-1}]
其中,(I_k) 是 (k \times k) 的单位矩阵,(D_{21}) 是对角矩阵,其第 (i) 个对角元素 (d_{ii} = \frac{1}{2 |(A) i|_2});(D_1) 是对角矩阵,其第 (i) 个对角元素 (d {ii} = \frac{1}{2 |B_{ij}|})。

迭代实验表明,当迭代次数达到20时,(A) 和 (B) 收敛。

以下是DSNPCMF算法流程:

graph TD;
    A[初始化A和B] --> B[计算GIP核相似度];
    B --> C[计算NP];
    C --> D[集成NP和核矩阵];
    D --> E[设置目标函数];
    E --> F[最小二乘法更新A和B];
    F --> G{是否收敛};
    G -- 否 --> F;
    G -- 是 --> H[输出结果];
6. 实验结果与讨论
  • 五折交叉验证 :基于HMDD v2.0中的已知miRNA - 疾病关联评估DSNPCMF的预测能力。将MDAs数据集随机分为五个子集,四个作为训练集,一个作为测试集。使用WKNKN预处理矩阵 (Y) 以消除未知关联。运行10次五折交叉验证并取平均值作为最终结果。使用AUC值评估方法性能,AUC是ROC曲线下的面积,值在0到1之间,值为0.5时预测性能较低。
  • 方法比较 :将DSNPCMF与CMF、HDMP、WBSMDA、HAMDA和ELLPMDA五种先进方法进行比较。结果如下表所示:
    | 方法 | 金标准数据集AUC |
    | ---- | ---- |
    | WBSMDA | 0.8185(0.0009) |
    | HDMP | 0.8342(0.0010) |
    | CMF | 0.8697(0.0011) |
    | HAMDA | 0.8965(0.0012) |
    | ELLPMDA | 0.9193(0.0002) |
    | DSNPCMF | 0.9407(0.0070) |

可以看出,DSNPCMF的AUC比WBSMDA的最低AUC值高12.22%,比ELLPMDA高2.14%,表明该方法更优且更可靠。

  • 案例研究 :选择结肠癌、脑肿瘤和肾上腺皮质癌三种疾病进行案例研究。通过dbDEMC和miR2Disease两个数据库验证预测结果。当预测矩阵中的值小于0.3时,不选择对应的miRNA。
    • 结肠癌 :金标准数据集中有五个已知的miRNA - 结肠癌关联,选择前十个。成功预测了四个已知关联,还预测了六个新关联。除miR - 125b外,其他五个新关联可在两个数据库中找到。
    • 脑肿瘤 :数据集中有十一个已知关联,全部被预测。除已知关联外,检测到九个新miRNA,其中五个可从dbDEMC获得验证信息。
    • 肾上腺皮质癌 :数据集中有53个与肾上腺皮质癌相关的miRNA,列出预测矩阵中关联得分前60的miRNA。前60个中成功预测了所有已知关联,还包含七个未确认的miRNA。

综上所述,DSNPCMF方法在预测miRNA - 疾病关联方面表现出色,具有较高的准确性和可靠性。未来有望应用更多可用数据集进行预测,并期待更多预测模型的出现。

DSNPCMF:预测miRNA - 疾病关联

7. 案例研究详细分析
  • 结肠癌案例
    已知在金标准数据集中,有五个已知的miRNA与结肠癌的关联。选取前十个预测结果进行分析,具体情况如下表所示:
    | 排名 | miRNA | 证据 |
    | ---- | ---- | ---- |
    | 1 | hsa - mir - 1 | 已知 |
    | 2 | hsa - mir - 126 | 已知 |
    | 3 | hsa - mir - 145 | 已知 |
    | 4 | hsa - mir - 17 | 已知 |
    | 5 | hsa - mir - 21 | dbDEMC;miR2Disease |
    | 6 | hsa - mir - 143 | dbDEMC;miR2Disease |
    | 7 | hsa - mir - 106a | dbDEMC;miR2Disease |
    | 8 | hsa - mir - 20a | dbDEMC;miR2Disease |
    | 9 | hsa - mir - 125b | dbDEMC |
    | 10 | hsa - mir - 155 | dbDEMC;miR2Disease |

    从表中可以看出,成功预测了四个已知关联,同时还预测出六个新关联。除了miR - 125b仅能在dbDEMC数据库中找到相关信息外,其余五个新关联在dbDEMC和miR2Disease两个数据库中都能找到,这表明miR - 21、miR - 143、miR - 106a、miR - 20a和miR - 155与结肠癌有较强的相互作用。
    - 脑肿瘤案例
    数据集中有十一个已知的miRNA与脑肿瘤的关联,全部被成功预测。由于还有很多其他与脑肿瘤的关联,仅选取前20个miRNA展示实验结果,如下表所示:
    | 排名 | miRNA | 证据 |
    | ---- | ---- | ---- |
    | 1 | hsa - mir - 1 | 已知 |
    | 2 | hsa - mir - 21 | 已知 |
    | 3 | hsa - mir - 9 | 已知 |
    | 4 | hsa - mir - 32 | 已知 |
    | 5 | hsa - mir - 22 | 已知 |
    | 6 | hsa - mir - 34a | 已知 |
    | 7 | hsa - mir - 222 | 已知 |
    | 8 | hsa - mir - 92 | 已知 |
    | 9 | hsa - mir - 129 | 已知 |
    | 10 | hsa - mir - 221 | 已知 |
    | 11 | hsa - mir - 92b | 已知 |
    | 12 | hsa - mir - 92a | 未确认 |
    | 13 | hsa - miR - 326 | dbDEMC |
    | 14 | hsa - mir - 132 | dbDEMC |
    | 15 | hsa - mir - 320d | 未确认 |
    | 16 | hsa - mir - 7e | 未确认 |
    | 17 | hsa - mir - 98 | dbDEMC |
    | 18 | hsa - mir - 373 | dbDEMC |
    | 19 | hsa - mir - 20b | dbDEMC |
    | 20 | hsa - mir - 498 | 未确认 |

    除了已知关联外,检测到九个新miRNA,其中五个可从dbDEMC获得验证信息。对于未确认的miRNA,如miR - 92a已被证实与肾癌和乳腺癌相关,虽然miR - 92a、miR - 320d和miR - 7e不能通过dbDEMC和miR2Disease验证,但根据实验结果它们与脑肿瘤紧密相关。
    - 肾上腺皮质癌案例
    数据集中有53个与肾上腺皮质癌相关的miRNA,列出预测矩阵中关联得分前60的miRNA,具体如下表:
    | 排名 | miRNA | 证据 | 排名 | miRNA | 证据 |
    | ---- | ---- | ---- | ---- | ---- | ---- |
    | 1 | hsa - mir - 1 | 已知 | 31 | hsa - mir - 7b | 已知 |
    | 2 | hsa - mir - 203 | 已知 | 32 | hsa - mir - 335 | 已知 |
    | 3 | hsa - mir - 21 | 已知 | 33 | hsa - mir - 23b | 已知 |
    | 4 | hsa - mir - 22 | 已知 | 34 | hsa - mir - 17 | 已知 |
    | 5 | hsa - mir - 210 | 已知 | 35 | hsa - mir - 449a | 已知 |
    | 6 | hsa - mir - 200b | 已知 | 36 | hsa - mir - 196a | 已知 |
    | 7 | hsa - mir - 7a | 已知 | 37 | hsa - mir - 132 | 已知 |
    | 8 | hsa - mir - 126 | 已知 | 38 | hsa - mir - 137 | 已知 |
    | 9 | hsa - mir - 145 | 已知 | 39 | hsa - mir - 135a | 已知 |
    | 10 | hsa - mir - 200 | 已知 | 40 | hsa - mir - 484 | 已知 |
    | 11 | hsa - mir - 143 | 已知 | 41 | hsa - mir - 449b | 已知 |
    | 12 | hsa - mir - 155 | 已知 | 42 | hsa - mir - 7d | 已知 |
    | 13 | hsa - mir - 375 | 已知 | 43 | hsa - mir - 491 | 已知 |
    | 14 | hsa - mir - 146a | 已知 | 44 | hsa - mir - 133a | 已知 |
    | 15 | hsa - mir - 16 | 已知 | 45 | hsa - mir - 376c | 已知 |
    | 16 | hsa - mir - 125b | 已知 | 46 | hsa - mir - 376a | 已知 |
    | 17 | hsa - mir - 130a | 已知 | 47 | hsa - mir - 139 | 已知 |
    | 18 | hsa - mir - 7 | 已知 | 48 | hsa - mir - 194 | 已知 |
    | 19 | hsa - mir - 192 | 已知 | 49 | hsa - mir - 424 | 已知 |
    | 20 | hsa - mir - 7c | 已知 | 50 | hsa - mir - 301b | 已知 |
    | 21 | hsa - mir - 30a | 已知 | 51 | hsa - mir - 376b | 已知 |
    | 22 | hsa - mir - 15b | 已知 | 52 | hsa - mir - 483 | 已知 |
    | 23 | hsa - mir - 106b | 已知 | 53 | hsa - mir - 675 | 已知 |
    | 24 | hsa - mir - 100 | 已知 | 54 | hsa - mir - 221 | 未确认 |
    | 25 | hsa - mir - 200c | 已知 | 55 | hsa - mir - 20a | 未确认 |
    | 26 | hsa - mir - 301a | 已知 | 56 | hsa - mir - 200a | 未确认 |
    | 27 | hsa - mir - 148a | 已知 | 57 | hsa - mir - 146b | 未确认 |
    | 28 | hsa - mir - 28 | 已知 | 58 | hsa - mir - 9 | 未确认 |
    | 29 | hsa - mir - 222 | 已知 | 59 | hsa - mir - 7f | 未确认 |
    | 30 | hsa - mir - 195 | 已知 | 60 | hsa - mir - 141 | 未确认 |

    在前60个miRNA中,所有已知关联都被成功预测,还包含七个未确认的miRNA。其中miR - 221预测得分最高,且已被证实与结肠癌和脑癌等多种疾病相关。

8. 总结

提出了一种基于最近邻轮廓和双稀疏的新方法来预测新的miRNA - 疾病关联。该方法引入 (L_{2,1}) 范数和 (L_1) 范数以增加稀疏性,并在预测新的MDAs时考虑了miRNA和疾病的最近邻信息。同时,应用GIP核获取miRNA和疾病的核相似度,有助于提高方法的准确性。使用WKNKN作为预处理步骤来获取miRNA和疾病的已知最近邻。AUC是评估该方法性能的可靠且重要的指标。

未来,预计会有更多的预测模型被提出,也会发现更多与不同疾病相关的新miRNA。期望能有更多可用数据集应用于miRNA - 疾病关联的预测。最重要的是,DSNPCMF方法在预测新的MDAs方面表现出色,其性能优于其他现有模型。

整个预测流程可以用以下mermaid流程图表示:

graph LR;
    A[数据准备(HMDD v2.0等)] --> B[DSNPCMF算法];
    B --> C[五折交叉验证];
    C --> D[方法比较];
    D --> E[案例研究(结肠癌、脑肿瘤、肾上腺皮质癌)];
    E --> F[输出预测结果];

综上所述,DSNPCMF在miRNA - 疾病关联预测领域具有重要的应用价值和发展潜力。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值