基因调控网络中负样本选择启发式方法研究
1. 研究背景与目标
在基因调控网络的研究中,通过机器学习算法推断新的基因调控连接是一个重要的课题。然而,在训练分类器时,可靠的负样本选择是一个关键问题。本研究旨在评估几种负样本选择启发式方法的性能,以及它们如何提高支持向量机(SVM)分类器在预测新基因调控连接方面的性能。具体研究问题如下:
- RQ1 :所选集合S的正样本和负样本的精确率/召回率如何随采用的启发式方法和已知正样本的百分比而变化?
- RQ2 :使用所选集合S和已知正样本训练的分类器的性能如何?
2. 负样本选择启发式方法
2.1 基于基序的启发式方法(MOTIF)
如果一个子网络与最常出现的基序之一匹配,即{M (3)0, M (3)1, …, M (3)n},则所选的负样本集合SMOTIF将填充为Complement(Tg1,g2,g3)的连接。
2.2 传递闭包启发式方法(TRANS)
该启发式方法基于这样的假设:调控网络没有或很少有循环,并且具有树状结构。它选择已知网络的传递闭包及其转置的并集作为候选负样本。具体公式为:
$S_{TRANS} = TC(P) \cup Transpose(TC(P)) \cup Transpose(P)$
其中,$TC(P)$是P的传递闭包,即由P的相同节点和边集(gi,gj)组成的图,使得在P中从gi到gj存在非空路径;而$Transpose(X)$是包含X的边反转的图。
超级会员免费看
订阅专栏 解锁全文
482

被折叠的 条评论
为什么被折叠?



