22、DSNPCMF：预测miRNA - 疾病关联

root9

于 2025-07-16 16:55:16 发布

阅读量70

点赞数

CC 4.0 BY-SA版权

分类专栏：数据科学前沿：从模型驱动到数据驱动文章标签： DSNPCMF miRNA-疾病关联最近邻轮廓

本文链接：https://blog.youkuaiyun.com/root9/article/details/149591677

数据科学前沿：从模型驱动到数据驱动专栏收录该内容

30 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

DSNPCMF：预测miRNA - 疾病关联

1. 疾病语义相似度

疾病语义贡献因子和疾病在有向无环图（DAG）中的贡献值相关。疾病对自身语义值的贡献为1，且随着与其他疾病距离的增加，贡献值会降低。若两个不同疾病与某一疾病的距离相同，则它们的贡献值相同。

疾病语义相似度得分公式如下：
[S_d(d(i), d(j)) = \frac{\sum_{t\in T(d(i))\cap T(d(j))} (DC_{d(i)}(t) + DC_{d(j)}(t))}{DSV(d(i)) + DSV(d(j))}]
与 (S_m) 类似，矩阵 (S_d) 的对角元素为1。

2. 相关工作

高斯交互轮廓核相似度 ：基于相似疾病往往与功能相似的miRNA相关的假设，用于表示已知miRNA - 疾病关联网络的拓扑结构。
- miRNA网络相似度：
  [GIP_{miRNA}(m(i), m(j)) = \exp\left(-\gamma_m |Y(m(i)) - Y(m(j))|^2\right)]
- 疾病网络相似度：
  [GIP_{disease}(d(i), d(j)) = \exp\left(-\gamma_d |Y(d(i)) - Y(d(j))|^2\right)]
  其中，(\gamma_m) 和 (\gamma_d) 是调整核带宽的参数，(m(i)) 和 (m(j)) 是两个miRNA，(d(i)) 和 (d(j)) 是两个疾病，(Y(m(i))) 和 (Y(m(j))) 分别表示 (m(i)) 和 (m(j)) 的交互轮廓，(Y(d(i))) 和 (Y(d(j))) 分别表示 (d(i)) 和 (d(j)) 的关联轮廓。(m) 是 (Y) 的行数，(d) 是 (Y) 的列数。

miRNA网络相似度矩阵 (K_m) 和疾病网络相似度矩阵 (K_d) 的计算公式如下：
[K_m = \alpha S_m + (1 - \alpha)GIP_{miRNA}]
[K_d = \alpha S_d + (1 - \alpha)GIP_{disease}]
其中，(\alpha) 是一个介于0和1之间的可调参数。

最近邻轮廓（Nearest Profile） ：是一个独立的预测模型，可较好地预测潜在的miRNA - 疾病关联。对于新的miRNA (m(i)) 和新的疾病 (d(j))，NP的计算如下：
[N_m(m(i)) = K_m(m(i), m_{nearest}) \times Y(m_{nearest})]
[N_d(d(j)) = K_d(d(j), d_{nearest}) \times Y(d_{nearest})]
NP的处理过程分为四个步骤：
1. 消除矩阵 (K_m) 和 (K_d) 中的自相似度。
2. 获取每个miRNA和每个疾病的最近邻。
3. 将所有miRNA相似度和疾病相似度重置为0。
4. 分别基于 (K_m) 和 (K_d) 得到miRNA最近邻矩阵 (N_m) 和疾病最近邻矩阵 (N_d)。
CMF算法 ：传统的CMF是预测新的miRNA - 疾病关联（MDAs）的可靠计算模型。其目标函数定义为：
[
\min_{A,B} = |Y - AB^T|_F^2 + \lambda_l (|A|_F^2 + |B|_F^2) + \lambda_m |S_m - AA^T|_F^2 + \lambda_d |S_d - BB^T|_F^2
]
其中，(|\cdot|_F) 是Frobenius范数，(\lambda_l)、(\lambda_m) 和 (\lambda_d) 是非负参数，(Y) 是已知关联矩阵。CMF方法使用正则化项确保相似miRNA和相似疾病的潜在特征向量相似。

3. DSNPCMF预测MDA

基于CMF开发了DSNPCMF计算方法。由于CMF忽略了miRNA和疾病的网络信息，因此将GIP结合到CMF中。使用NP处理miRNA网络相似度矩阵 (K_m) 和疾病网络相似度矩阵 (K_d)，分别得到miRNA和疾病的NP，然后将其与miRNA核和疾病核集成。最后，用矩阵 (N_m) 和 (N_d) 替换CMF目标函数中的 (S_m) 和 (S_d)。

此外，添加了 (L_{2,1}) 范数和 (L_1) 范数以增加矩阵 (A) 和 (B) 的稀疏性。DSNPCMF的目标函数如下：
[
\min_{A,B} = |Y - AB^T| F^2 + \lambda_l (|A|_F^2 + |B|_F^2) + \lambda_l (|A| {2,1} + |B|_1) + \lambda_m |N_m - AA^T|_F^2 + \lambda_d |N_d - BB^T|_F^2
]
(\lambda_l)、(\lambda_m) 和 (\lambda_d) 的值通过交叉验证确定，(\lambda_l \in {2^{-2}, 2^{-1}, 2^0, 2^1})，(\lambda_m / \lambda_d \in {2^{-3}, 2^{-2}, 2^{-1}, 2^0, 2^1, 2^2, 2^3, 2^4, 2^5})。

4. A和B的初始化

采用奇异值分解（SVD）方法将 (Y) 分解为 (A) 和 (B)，具体公式如下：
[[U, S, V] = SVD(Y, k), A = US_k^{1/2}, B = VS_k^{1/2}]
其中，(S_k) 是包含 (k) 个奇异值的对角矩阵。

5. 优化

使用最小二乘法更新 (A) 和 (B) 直到收敛。设 (L) 表示DSNPCMF的目标函数，令 (\frac{\partial L}{\partial A}) 和 (\frac{\partial L}{\partial B}) 为0来求解 (A) 和 (B) 的表达式。同时，采用五折交叉验证获取 (\lambda_l)、(\lambda_m) 和 (\lambda_d) 的最优值。更新规则如下：
[A = (YB + \lambda_m N_m A) (B^T B + \lambda_l I_k + \lambda_l D_{21} I_k + \lambda_m A^T A)^{-1}]
[B = (Y^T A + \lambda_d N_d B) (A^T A + \lambda_l I_k + \lambda_l D_1 I_k + \lambda_d B^T B)^{-1}]
其中，(I_k) 是 (k \times k) 的单位矩阵，(D_{21}) 是对角矩阵，其第 (i) 个对角元素 (d_{ii} = \frac{1}{2 |(A) i|_2})；(D_1) 是对角矩阵，其第 (i) 个对角元素 (d {ii} = \frac{1}{2 |B_{ij}|})。

迭代实验表明，当迭代次数达到20时，(A) 和 (B) 收敛。

以下是DSNPCMF算法流程：

graph TD;
    A[初始化A和B] --> B[计算GIP核相似度];
    B --> C[计算NP];
    C --> D[集成NP和核矩阵];
    D --> E[设置目标函数];
    E --> F[最小二乘法更新A和B];
    F --> G{是否收敛};
    G -- 否 --> F;
    G -- 是 --> H[输出结果];

6. 实验结果与讨论

五折交叉验证 ：基于HMDD v2.0中的已知miRNA - 疾病关联评估DSNPCMF的预测能力。将MDAs数据集随机分为五个子集，四个作为训练集，一个作为测试集。使用WKNKN预处理矩阵 (Y) 以消除未知关联。运行10次五折交叉验证并取平均值作为最终结果。使用AUC值评估方法性能，AUC是ROC曲线下的面积，值在0到1之间，值为0.5时预测性能较低。
方法比较 ：将DSNPCMF与CMF、HDMP、WBSMDA、HAMDA和ELLPMDA五种先进方法进行比较。结果如下表所示：
| 方法 | 金标准数据集AUC |
| ---- | ---- |
| WBSMDA | 0.8185(0.0009) |
| HDMP | 0.8342(0.0010) |
| CMF | 0.8697(0.0011) |
| HAMDA | 0.8965(0.0012) |
| ELLPMDA | 0.9193(0.0002) |
| DSNPCMF | 0.9407(0.0070) |

可以看出，DSNPCMF的AUC比WBSMDA的最低AUC值高12.22%，比ELLPMDA高2.14%，表明该方法更优且更可靠。

案例研究 ：选择结肠癌、脑肿瘤和肾上腺皮质癌三种疾病进行案例研究。通过dbDEMC和miR2Disease两个数据库验证预测结果。当预测矩阵中的值小于0.3时，不选择对应的miRNA。
- 结肠癌 ：金标准数据集中有五个已知的miRNA - 结肠癌关联，选择前十个。成功预测了四个已知关联，还预测了六个新关联。除miR - 125b外，其他五个新关联可在两个数据库中找到。
- 脑肿瘤 ：数据集中有十一个已知关联，全部被预测。除已知关联外，检测到九个新miRNA，其中五个可从dbDEMC获得验证信息。
- 肾上腺皮质癌 ：数据集中有53个与肾上腺皮质癌相关的miRNA，列出预测矩阵中关联得分前60的miRNA。前60个中成功预测了所有已知关联，还包含七个未确认的miRNA。

综上所述，DSNPCMF方法在预测miRNA - 疾病关联方面表现出色，具有较高的准确性和可靠性。未来有望应用更多可用数据集进行预测，并期待更多预测模型的出现。

DSNPCMF：预测miRNA - 疾病关联

7. 案例研究详细分析

结肠癌案例
已知在金标准数据集中，有五个已知的miRNA与结肠癌的关联。选取前十个预测结果进行分析，具体情况如下表所示：
| 排名 | miRNA | 证据 |
| ---- | ---- | ---- |
| 1 | hsa - mir - 1 | 已知 |
| 2 | hsa - mir - 126 | 已知 |
| 3 | hsa - mir - 145 | 已知 |
| 4 | hsa - mir - 17 | 已知 |
| 5 | hsa - mir - 21 | dbDEMC;miR2Disease |
| 6 | hsa - mir - 143 | dbDEMC;miR2Disease |
| 7 | hsa - mir - 106a | dbDEMC;miR2Disease |
| 8 | hsa - mir - 20a | dbDEMC;miR2Disease |
| 9 | hsa - mir - 125b | dbDEMC |
| 10 | hsa - mir - 155 | dbDEMC;miR2Disease |

从表中可以看出，成功预测了四个已知关联，同时还预测出六个新关联。除了miR - 125b仅能在dbDEMC数据库中找到相关信息外，其余五个新关联在dbDEMC和miR2Disease两个数据库中都能找到，这表明miR - 21、miR - 143、miR - 106a、miR - 20a和miR - 155与结肠癌有较强的相互作用。
- 脑肿瘤案例
数据集中有十一个已知的miRNA与脑肿瘤的关联，全部被成功预测。由于还有很多其他与脑肿瘤的关联，仅选取前20个miRNA展示实验结果，如下表所示：
| 排名 | miRNA | 证据 |
| ---- | ---- | ---- |
| 1 | hsa - mir - 1 | 已知 |
| 2 | hsa - mir - 21 | 已知 |
| 3 | hsa - mir - 9 | 已知 |
| 4 | hsa - mir - 32 | 已知 |
| 5 | hsa - mir - 22 | 已知 |
| 6 | hsa - mir - 34a | 已知 |
| 7 | hsa - mir - 222 | 已知 |
| 8 | hsa - mir - 92 | 已知 |
| 9 | hsa - mir - 129 | 已知 |
| 10 | hsa - mir - 221 | 已知 |
| 11 | hsa - mir - 92b | 已知 |
| 12 | hsa - mir - 92a | 未确认 |
| 13 | hsa - miR - 326 | dbDEMC |
| 14 | hsa - mir - 132 | dbDEMC |
| 15 | hsa - mir - 320d | 未确认 |
| 16 | hsa - mir - 7e | 未确认 |
| 17 | hsa - mir - 98 | dbDEMC |
| 18 | hsa - mir - 373 | dbDEMC |
| 19 | hsa - mir - 20b | dbDEMC |
| 20 | hsa - mir - 498 | 未确认 |

除了已知关联外，检测到九个新miRNA，其中五个可从dbDEMC获得验证信息。对于未确认的miRNA，如miR - 92a已被证实与肾癌和乳腺癌相关，虽然miR - 92a、miR - 320d和miR - 7e不能通过dbDEMC和miR2Disease验证，但根据实验结果它们与脑肿瘤紧密相关。
- 肾上腺皮质癌案例
数据集中有53个与肾上腺皮质癌相关的miRNA，列出预测矩阵中关联得分前60的miRNA，具体如下表：
| 排名 | miRNA | 证据 | 排名 | miRNA | 证据 |
| ---- | ---- | ---- | ---- | ---- | ---- |
| 1 | hsa - mir - 1 | 已知 | 31 | hsa - mir - 7b | 已知 |
| 2 | hsa - mir - 203 | 已知 | 32 | hsa - mir - 335 | 已知 |
| 3 | hsa - mir - 21 | 已知 | 33 | hsa - mir - 23b | 已知 |
| 4 | hsa - mir - 22 | 已知 | 34 | hsa - mir - 17 | 已知 |
| 5 | hsa - mir - 210 | 已知 | 35 | hsa - mir - 449a | 已知 |
| 6 | hsa - mir - 200b | 已知 | 36 | hsa - mir - 196a | 已知 |
| 7 | hsa - mir - 7a | 已知 | 37 | hsa - mir - 132 | 已知 |
| 8 | hsa - mir - 126 | 已知 | 38 | hsa - mir - 137 | 已知 |
| 9 | hsa - mir - 145 | 已知 | 39 | hsa - mir - 135a | 已知 |
| 10 | hsa - mir - 200 | 已知 | 40 | hsa - mir - 484 | 已知 |
| 11 | hsa - mir - 143 | 已知 | 41 | hsa - mir - 449b | 已知 |
| 12 | hsa - mir - 155 | 已知 | 42 | hsa - mir - 7d | 已知 |
| 13 | hsa - mir - 375 | 已知 | 43 | hsa - mir - 491 | 已知 |
| 14 | hsa - mir - 146a | 已知 | 44 | hsa - mir - 133a | 已知 |
| 15 | hsa - mir - 16 | 已知 | 45 | hsa - mir - 376c | 已知 |
| 16 | hsa - mir - 125b | 已知 | 46 | hsa - mir - 376a | 已知 |
| 17 | hsa - mir - 130a | 已知 | 47 | hsa - mir - 139 | 已知 |
| 18 | hsa - mir - 7 | 已知 | 48 | hsa - mir - 194 | 已知 |
| 19 | hsa - mir - 192 | 已知 | 49 | hsa - mir - 424 | 已知 |
| 20 | hsa - mir - 7c | 已知 | 50 | hsa - mir - 301b | 已知 |
| 21 | hsa - mir - 30a | 已知 | 51 | hsa - mir - 376b | 已知 |
| 22 | hsa - mir - 15b | 已知 | 52 | hsa - mir - 483 | 已知 |
| 23 | hsa - mir - 106b | 已知 | 53 | hsa - mir - 675 | 已知 |
| 24 | hsa - mir - 100 | 已知 | 54 | hsa - mir - 221 | 未确认 |
| 25 | hsa - mir - 200c | 已知 | 55 | hsa - mir - 20a | 未确认 |
| 26 | hsa - mir - 301a | 已知 | 56 | hsa - mir - 200a | 未确认 |
| 27 | hsa - mir - 148a | 已知 | 57 | hsa - mir - 146b | 未确认 |
| 28 | hsa - mir - 28 | 已知 | 58 | hsa - mir - 9 | 未确认 |
| 29 | hsa - mir - 222 | 已知 | 59 | hsa - mir - 7f | 未确认 |
| 30 | hsa - mir - 195 | 已知 | 60 | hsa - mir - 141 | 未确认 |

在前60个miRNA中，所有已知关联都被成功预测，还包含七个未确认的miRNA。其中miR - 221预测得分最高，且已被证实与结肠癌和脑癌等多种疾病相关。

8. 总结

提出了一种基于最近邻轮廓和双稀疏的新方法来预测新的miRNA - 疾病关联。该方法引入 (L_{2,1}) 范数和 (L_1) 范数以增加稀疏性，并在预测新的MDAs时考虑了miRNA和疾病的最近邻信息。同时，应用GIP核获取miRNA和疾病的核相似度，有助于提高方法的准确性。使用WKNKN作为预处理步骤来获取miRNA和疾病的已知最近邻。AUC是评估该方法性能的可靠且重要的指标。

未来，预计会有更多的预测模型被提出，也会发现更多与不同疾病相关的新miRNA。期望能有更多可用数据集应用于miRNA - 疾病关联的预测。最重要的是，DSNPCMF方法在预测新的MDAs方面表现出色，其性能优于其他现有模型。

整个预测流程可以用以下mermaid流程图表示：

graph LR;
    A[数据准备（HMDD v2.0等）] --> B[DSNPCMF算法];
    B --> C[五折交叉验证];
    C --> D[方法比较];
    D --> E[案例研究（结肠癌、脑肿瘤、肾上腺皮质癌）];
    E --> F[输出预测结果];

综上所述，DSNPCMF在miRNA - 疾病关联预测领域具有重要的应用价值和发展潜力。