DSNPCMF:预测miRNA - 疾病关联
1. 疾病语义相似度
疾病语义贡献因子和疾病在有向无环图(DAG)中的贡献值相关。疾病对自身语义值的贡献为1,且随着与其他疾病距离的增加,贡献值会降低。若两个不同疾病与某一疾病的距离相同,则它们的贡献值相同。
疾病语义相似度得分公式如下:
[S_d(d(i), d(j)) = \frac{\sum_{t\in T(d(i))\cap T(d(j))} (DC_{d(i)}(t) + DC_{d(j)}(t))}{DSV(d(i)) + DSV(d(j))}]
与 (S_m) 类似,矩阵 (S_d) 的对角元素为1。
2. 相关工作
-
高斯交互轮廓核相似度
:基于相似疾病往往与功能相似的miRNA相关的假设,用于表示已知miRNA - 疾病关联网络的拓扑结构。
-
miRNA网络相似度:
[GIP_{miRNA}(m(i), m(j)) = \exp\left(-\gamma_m |Y(m(i)) - Y(m(j))|^2\right)] -
疾病网络相似度:
[GIP_{disease}(d(i), d(j)) = \exp\left(-\gamma_d |Y(d(i)) - Y(d(j))|^2\right)]
其中,(\gamma_m) 和 (\gamma_d) 是调整核带宽的参数,(m(i)) 和 (m(j)) 是两个miRNA,(d(i)) 和 (d(j)) 是两个疾病,(Y(m(i))) 和 (Y(m(j))) 分别表示 (m(i)) 和 (m(j)) 的交互轮廓,(Y(d(i))) 和 (Y(d(j))) 分别表示 (d(i)) 和 (d(j)) 的关联轮廓。(m) 是 (Y) 的行数,(d) 是 (Y) 的列数。
-
miRNA网络相似度:
miRNA网络相似度矩阵 (K_m) 和疾病网络相似度矩阵 (K_d) 的计算公式如下:
[K_m = \alpha S_m + (1 - \alpha)GIP_{miRNA}]
[K_d = \alpha S_d + (1 - \alpha)GIP_{disease}]
其中,(\alpha) 是一个介于0和1之间的可调参数。
-
最近邻轮廓(Nearest Profile) :是一个独立的预测模型,可较好地预测潜在的miRNA - 疾病关联。对于新的miRNA (m(i)) 和新的疾病 (d(j)),NP的计算如下:
[N_m(m(i)) = K_m(m(i), m_{nearest}) \times Y(m_{nearest})]
[N_d(d(j)) = K_d(d(j), d_{nearest}) \times Y(d_{nearest})]
NP的处理过程分为四个步骤:- 消除矩阵 (K_m) 和 (K_d) 中的自相似度。
- 获取每个miRNA和每个疾病的最近邻。
- 将所有miRNA相似度和疾病相似度重置为0。
- 分别基于 (K_m) 和 (K_d) 得到miRNA最近邻矩阵 (N_m) 和疾病最近邻矩阵 (N_d)。
-
CMF算法 :传统的CMF是预测新的miRNA - 疾病关联(MDAs)的可靠计算模型。其目标函数定义为:
[
\min_{A,B} = |Y - AB^T|_F^2 + \lambda_l (|A|_F^2 + |B|_F^2) + \lambda_m |S_m - AA^T|_F^2 + \lambda_d |S_d - BB^T|_F^2
]
其中,(|\cdot|_F) 是Frobenius范数,(\lambda_l)、(\lambda_m) 和 (\lambda_d) 是非负参数,(Y) 是已知关联矩阵。CMF方法使用正则化项确保相似miRNA和相似疾病的潜在特征向量相似。
3. DSNPCMF预测MDA
基于CMF开发了DSNPCMF计算方法。由于CMF忽略了miRNA和疾病的网络信息,因此将GIP结合到CMF中。使用NP处理miRNA网络相似度矩阵 (K_m) 和疾病网络相似度矩阵 (K_d),分别得到miRNA和疾病的NP,然后将其与miRNA核和疾病核集成。最后,用矩阵 (N_m) 和 (N_d) 替换CMF目标函数中的 (S_m) 和 (S_d)。
此外,添加了 (L_{2,1}) 范数和 (L_1) 范数以增加矩阵 (A) 和 (B) 的稀疏性。DSNPCMF的目标函数如下:
[
\min_{A,B} = |Y - AB^T|
F^2 + \lambda_l (|A|_F^2 + |B|_F^2) + \lambda_l (|A|
{2,1} + |B|_1) + \lambda_m |N_m - AA^T|_F^2 + \lambda_d |N_d - BB^T|_F^2
]
(\lambda_l)、(\lambda_m) 和 (\lambda_d) 的值通过交叉验证确定,(\lambda_l \in {2^{-2}, 2^{-1}, 2^0, 2^1}),(\lambda_m / \lambda_d \in {2^{-3}, 2^{-2}, 2^{-1}, 2^0, 2^1, 2^2, 2^3, 2^4, 2^5})。
4. A和B的初始化
采用奇异值分解(SVD)方法将 (Y) 分解为 (A) 和 (B),具体公式如下:
[[U, S, V] = SVD(Y, k), A = US_k^{1/2}, B = VS_k^{1/2}]
其中,(S_k) 是包含 (k) 个奇异值的对角矩阵。
5. 优化
使用最小二乘法更新 (A) 和 (B) 直到收敛。设 (L) 表示DSNPCMF的目标函数,令 (\frac{\partial L}{\partial A}) 和 (\frac{\partial L}{\partial B}) 为0来求解 (A) 和 (B) 的表达式。同时,采用五折交叉验证获取 (\lambda_l)、(\lambda_m) 和 (\lambda_d) 的最优值。更新规则如下:
[A = (YB + \lambda_m N_m A) (B^T B + \lambda_l I_k + \lambda_l D_{21} I_k + \lambda_m A^T A)^{-1}]
[B = (Y^T A + \lambda_d N_d B) (A^T A + \lambda_l I_k + \lambda_l D_1 I_k + \lambda_d B^T B)^{-1}]
其中,(I_k) 是 (k \times k) 的单位矩阵,(D_{21}) 是对角矩阵,其第 (i) 个对角元素 (d_{ii} = \frac{1}{2 |(A)
i|_2});(D_1) 是对角矩阵,其第 (i) 个对角元素 (d
{ii} = \frac{1}{2 |B_{ij}|})。
迭代实验表明,当迭代次数达到20时,(A) 和 (B) 收敛。
以下是DSNPCMF算法流程:
graph TD;
A[初始化A和B] --> B[计算GIP核相似度];
B --> C[计算NP];
C --> D[集成NP和核矩阵];
D --> E[设置目标函数];
E --> F[最小二乘法更新A和B];
F --> G{是否收敛};
G -- 否 --> F;
G -- 是 --> H[输出结果];
6. 实验结果与讨论
- 五折交叉验证 :基于HMDD v2.0中的已知miRNA - 疾病关联评估DSNPCMF的预测能力。将MDAs数据集随机分为五个子集,四个作为训练集,一个作为测试集。使用WKNKN预处理矩阵 (Y) 以消除未知关联。运行10次五折交叉验证并取平均值作为最终结果。使用AUC值评估方法性能,AUC是ROC曲线下的面积,值在0到1之间,值为0.5时预测性能较低。
-
方法比较
:将DSNPCMF与CMF、HDMP、WBSMDA、HAMDA和ELLPMDA五种先进方法进行比较。结果如下表所示:
| 方法 | 金标准数据集AUC |
| ---- | ---- |
| WBSMDA | 0.8185(0.0009) |
| HDMP | 0.8342(0.0010) |
| CMF | 0.8697(0.0011) |
| HAMDA | 0.8965(0.0012) |
| ELLPMDA | 0.9193(0.0002) |
| DSNPCMF | 0.9407(0.0070) |
可以看出,DSNPCMF的AUC比WBSMDA的最低AUC值高12.22%,比ELLPMDA高2.14%,表明该方法更优且更可靠。
-
案例研究
:选择结肠癌、脑肿瘤和肾上腺皮质癌三种疾病进行案例研究。通过dbDEMC和miR2Disease两个数据库验证预测结果。当预测矩阵中的值小于0.3时,不选择对应的miRNA。
- 结肠癌 :金标准数据集中有五个已知的miRNA - 结肠癌关联,选择前十个。成功预测了四个已知关联,还预测了六个新关联。除miR - 125b外,其他五个新关联可在两个数据库中找到。
- 脑肿瘤 :数据集中有十一个已知关联,全部被预测。除已知关联外,检测到九个新miRNA,其中五个可从dbDEMC获得验证信息。
- 肾上腺皮质癌 :数据集中有53个与肾上腺皮质癌相关的miRNA,列出预测矩阵中关联得分前60的miRNA。前60个中成功预测了所有已知关联,还包含七个未确认的miRNA。
综上所述,DSNPCMF方法在预测miRNA - 疾病关联方面表现出色,具有较高的准确性和可靠性。未来有望应用更多可用数据集进行预测,并期待更多预测模型的出现。
DSNPCMF:预测miRNA - 疾病关联
7. 案例研究详细分析
-
结肠癌案例
已知在金标准数据集中,有五个已知的miRNA与结肠癌的关联。选取前十个预测结果进行分析,具体情况如下表所示:
| 排名 | miRNA | 证据 |
| ---- | ---- | ---- |
| 1 | hsa - mir - 1 | 已知 |
| 2 | hsa - mir - 126 | 已知 |
| 3 | hsa - mir - 145 | 已知 |
| 4 | hsa - mir - 17 | 已知 |
| 5 | hsa - mir - 21 | dbDEMC;miR2Disease |
| 6 | hsa - mir - 143 | dbDEMC;miR2Disease |
| 7 | hsa - mir - 106a | dbDEMC;miR2Disease |
| 8 | hsa - mir - 20a | dbDEMC;miR2Disease |
| 9 | hsa - mir - 125b | dbDEMC |
| 10 | hsa - mir - 155 | dbDEMC;miR2Disease |从表中可以看出,成功预测了四个已知关联,同时还预测出六个新关联。除了miR - 125b仅能在dbDEMC数据库中找到相关信息外,其余五个新关联在dbDEMC和miR2Disease两个数据库中都能找到,这表明miR - 21、miR - 143、miR - 106a、miR - 20a和miR - 155与结肠癌有较强的相互作用。
- 脑肿瘤案例
数据集中有十一个已知的miRNA与脑肿瘤的关联,全部被成功预测。由于还有很多其他与脑肿瘤的关联,仅选取前20个miRNA展示实验结果,如下表所示:
| 排名 | miRNA | 证据 |
| ---- | ---- | ---- |
| 1 | hsa - mir - 1 | 已知 |
| 2 | hsa - mir - 21 | 已知 |
| 3 | hsa - mir - 9 | 已知 |
| 4 | hsa - mir - 32 | 已知 |
| 5 | hsa - mir - 22 | 已知 |
| 6 | hsa - mir - 34a | 已知 |
| 7 | hsa - mir - 222 | 已知 |
| 8 | hsa - mir - 92 | 已知 |
| 9 | hsa - mir - 129 | 已知 |
| 10 | hsa - mir - 221 | 已知 |
| 11 | hsa - mir - 92b | 已知 |
| 12 | hsa - mir - 92a | 未确认 |
| 13 | hsa - miR - 326 | dbDEMC |
| 14 | hsa - mir - 132 | dbDEMC |
| 15 | hsa - mir - 320d | 未确认 |
| 16 | hsa - mir - 7e | 未确认 |
| 17 | hsa - mir - 98 | dbDEMC |
| 18 | hsa - mir - 373 | dbDEMC |
| 19 | hsa - mir - 20b | dbDEMC |
| 20 | hsa - mir - 498 | 未确认 |除了已知关联外,检测到九个新miRNA,其中五个可从dbDEMC获得验证信息。对于未确认的miRNA,如miR - 92a已被证实与肾癌和乳腺癌相关,虽然miR - 92a、miR - 320d和miR - 7e不能通过dbDEMC和miR2Disease验证,但根据实验结果它们与脑肿瘤紧密相关。
- 肾上腺皮质癌案例
数据集中有53个与肾上腺皮质癌相关的miRNA,列出预测矩阵中关联得分前60的miRNA,具体如下表:
| 排名 | miRNA | 证据 | 排名 | miRNA | 证据 |
| ---- | ---- | ---- | ---- | ---- | ---- |
| 1 | hsa - mir - 1 | 已知 | 31 | hsa - mir - 7b | 已知 |
| 2 | hsa - mir - 203 | 已知 | 32 | hsa - mir - 335 | 已知 |
| 3 | hsa - mir - 21 | 已知 | 33 | hsa - mir - 23b | 已知 |
| 4 | hsa - mir - 22 | 已知 | 34 | hsa - mir - 17 | 已知 |
| 5 | hsa - mir - 210 | 已知 | 35 | hsa - mir - 449a | 已知 |
| 6 | hsa - mir - 200b | 已知 | 36 | hsa - mir - 196a | 已知 |
| 7 | hsa - mir - 7a | 已知 | 37 | hsa - mir - 132 | 已知 |
| 8 | hsa - mir - 126 | 已知 | 38 | hsa - mir - 137 | 已知 |
| 9 | hsa - mir - 145 | 已知 | 39 | hsa - mir - 135a | 已知 |
| 10 | hsa - mir - 200 | 已知 | 40 | hsa - mir - 484 | 已知 |
| 11 | hsa - mir - 143 | 已知 | 41 | hsa - mir - 449b | 已知 |
| 12 | hsa - mir - 155 | 已知 | 42 | hsa - mir - 7d | 已知 |
| 13 | hsa - mir - 375 | 已知 | 43 | hsa - mir - 491 | 已知 |
| 14 | hsa - mir - 146a | 已知 | 44 | hsa - mir - 133a | 已知 |
| 15 | hsa - mir - 16 | 已知 | 45 | hsa - mir - 376c | 已知 |
| 16 | hsa - mir - 125b | 已知 | 46 | hsa - mir - 376a | 已知 |
| 17 | hsa - mir - 130a | 已知 | 47 | hsa - mir - 139 | 已知 |
| 18 | hsa - mir - 7 | 已知 | 48 | hsa - mir - 194 | 已知 |
| 19 | hsa - mir - 192 | 已知 | 49 | hsa - mir - 424 | 已知 |
| 20 | hsa - mir - 7c | 已知 | 50 | hsa - mir - 301b | 已知 |
| 21 | hsa - mir - 30a | 已知 | 51 | hsa - mir - 376b | 已知 |
| 22 | hsa - mir - 15b | 已知 | 52 | hsa - mir - 483 | 已知 |
| 23 | hsa - mir - 106b | 已知 | 53 | hsa - mir - 675 | 已知 |
| 24 | hsa - mir - 100 | 已知 | 54 | hsa - mir - 221 | 未确认 |
| 25 | hsa - mir - 200c | 已知 | 55 | hsa - mir - 20a | 未确认 |
| 26 | hsa - mir - 301a | 已知 | 56 | hsa - mir - 200a | 未确认 |
| 27 | hsa - mir - 148a | 已知 | 57 | hsa - mir - 146b | 未确认 |
| 28 | hsa - mir - 28 | 已知 | 58 | hsa - mir - 9 | 未确认 |
| 29 | hsa - mir - 222 | 已知 | 59 | hsa - mir - 7f | 未确认 |
| 30 | hsa - mir - 195 | 已知 | 60 | hsa - mir - 141 | 未确认 |在前60个miRNA中,所有已知关联都被成功预测,还包含七个未确认的miRNA。其中miR - 221预测得分最高,且已被证实与结肠癌和脑癌等多种疾病相关。
8. 总结
提出了一种基于最近邻轮廓和双稀疏的新方法来预测新的miRNA - 疾病关联。该方法引入 (L_{2,1}) 范数和 (L_1) 范数以增加稀疏性,并在预测新的MDAs时考虑了miRNA和疾病的最近邻信息。同时,应用GIP核获取miRNA和疾病的核相似度,有助于提高方法的准确性。使用WKNKN作为预处理步骤来获取miRNA和疾病的已知最近邻。AUC是评估该方法性能的可靠且重要的指标。
未来,预计会有更多的预测模型被提出,也会发现更多与不同疾病相关的新miRNA。期望能有更多可用数据集应用于miRNA - 疾病关联的预测。最重要的是,DSNPCMF方法在预测新的MDAs方面表现出色,其性能优于其他现有模型。
整个预测流程可以用以下mermaid流程图表示:
graph LR;
A[数据准备(HMDD v2.0等)] --> B[DSNPCMF算法];
B --> C[五折交叉验证];
C --> D[方法比较];
D --> E[案例研究(结肠癌、脑肿瘤、肾上腺皮质癌)];
E --> F[输出预测结果];
综上所述,DSNPCMF在miRNA - 疾病关联预测领域具有重要的应用价值和发展潜力。
超级会员免费看
1557

被折叠的 条评论
为什么被折叠?



