基因本体语义挖掘在必需基因预测及电子断层扫描三维重建中的应用
必需基因预测研究
在基因研究领域,预测必需基因是一项关键任务。研究人员提出了一种利用关联规则将基因功能(GO术语)与必需基因预测相连接的新方法。
规则匹配与特征提取
规则匹配阶段是预测的重要环节。在这个阶段,会根据规则的优先级进行操作。GOARC和GOCBA在规则排序优先级上存在差异。
- GOCBA优先级 :首先,置信度更高的规则更重要;若置信度相同,支持度更高的规则更显著;若仍相同,左部(LHS)项数更少的规则更重要,因为项数少的规则更容易匹配。
- GOARC优先级 :左部项数更多的规则更重要;若左部项数相同,置信度更高的规则更显著,它更倾向于找到特定规则。
在规则匹配时,预测基因会将其编码的注释GO术语与每个正规则的左部依次比较,直到匹配成功。GOCBA特征值从第一个匹配规则的置信度中获取,而GOARC特征值从公式(1)值最大的匹配规则中获取。匹配百分比越高,预测基因与匹配规则的契合度越高。
[GOARC(i)=\max\left{\frac{n_{Rule}(j)}{n_{Gene}(GO_{i})}\times Confidence\ of\ Rule(j)\right}]
数据与算法
研究使用了酿酒酵母的相关信息,包括序列信息、GO、GOSlim等,这些数据从酿酒酵母基因组数据库下载。数据集包含3606个基因,其中957个为必需基因,2649个为非必需基因,平均每个基因有4.9个GO术语注释。
采用LibSVM(带
超级会员免费看
订阅专栏 解锁全文
715

被折叠的 条评论
为什么被折叠?



