挖掘关联开放数据与整合瑞典国家临床健康登记和生物样本库数据
1. 挖掘关联开放数据实验
在挖掘关联开放数据的研究中,进行了一系列与基因相关的实验。由于GO注释相较于通路、蛋白质结构域或蛋白质 - 蛋白质相互作用的数据更为丰富,导致理论中与GO术语相关的谓词占多数,而代表通路或蛋白质间相互作用的谓词很少出现。基于此,开展了名为“no - GO”的第五个实验,用于分析除GO术语事实之外的所有谓词。
以下是五个实验所产生理论的相关统计数据:
| 实验 | #规则 | 平均覆盖正例数 | 最大覆盖正例数 | 最小覆盖正例数 |
| — | — | — | — | — |
| no - GO | 11 | 8.4 | 15 | 5 |
| G1 | 22 | 14 | 35 | 6 |
| G2 | 19 | 15.5 | 38 | 6 |
| G3 | 18 | 15.1 | 39 | 6 |
| G4 | 16 | 16.2 | 42 | 5 |
从这些数据可以看出,添加GO术语事实后(从“no - GO”到G1),理论中的规则数量翻倍,平均覆盖的正例数从8.4增加到14,最大覆盖正例数从15增加到35。这表明GO术语事实在归纳逻辑编程(ILP)学习过程中起到了非常积极的作用。随着泛化步骤从1增加到4,规则数量从22减少到16,而平均覆盖正例数略有增加,从14增加到16.2,最大覆盖正例数也从35增加到42。这证实了随着泛化步骤的增加,理论会变得更紧凑,规则更少,但每个规则能覆盖更多的例子。
2. 结果评估
从预测的角度,使用交叉验证对挖掘步骤的结果进行评估。具体操作是使用
超级会员免费看
订阅专栏 解锁全文
26

被折叠的 条评论
为什么被折叠?



