5、挖掘关联开放数据与整合瑞典国家临床健康登记和生物样本库数据

Apple

于 2025-08-08 16:08:29 发布

阅读量42

点赞数

CC 4.0 BY-SA版权

分类专栏：生命科学数据整合与前沿进展文章标签：关联开放数据基因本体(GO) 归纳逻辑编程(ILP)

本文链接：https://blog.youkuaiyun.com/Apple/article/details/150604872

生命科学数据整合与前沿进展专栏收录该内容

19 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

挖掘关联开放数据与整合瑞典国家临床健康登记和生物样本库数据

1. 挖掘关联开放数据实验

在挖掘关联开放数据的研究中，进行了一系列与基因相关的实验。由于GO注释相较于通路、蛋白质结构域或蛋白质 - 蛋白质相互作用的数据更为丰富，导致理论中与GO术语相关的谓词占多数，而代表通路或蛋白质间相互作用的谓词很少出现。基于此，开展了名为“no - GO”的第五个实验，用于分析除GO术语事实之外的所有谓词。

以下是五个实验所产生理论的相关统计数据：
| 实验 | #规则 | 平均覆盖正例数 | 最大覆盖正例数 | 最小覆盖正例数 |
| — | — | — | — | — |
| no - GO | 11 | 8.4 | 15 | 5 |
| G1 | 22 | 14 | 35 | 6 |
| G2 | 19 | 15.5 | 38 | 6 |
| G3 | 18 | 15.1 | 39 | 6 |
| G4 | 16 | 16.2 | 42 | 5 |

从这些数据可以看出，添加GO术语事实后（从“no - GO”到G1），理论中的规则数量翻倍，平均覆盖的正例数从8.4增加到14，最大覆盖正例数从15增加到35。这表明GO术语事实在归纳逻辑编程（ILP）学习过程中起到了非常积极的作用。随着泛化步骤从1增加到4，规则数量从22减少到16，而平均覆盖正例数略有增加，从14增加到16.2，最大覆盖正例数也从35增加到42。这证实了随着泛化步骤的增加，理论会变得更紧凑，规则更少，但每个规则能覆盖更多的例子。