蛋白质复合物检测与高通量SNP基因分型技术
蛋白质复合物检测算法
算法设计原理
在蛋白质相互作用网络中寻找蛋白质复合物时,采用了两层种子的方法。其中,播种边作为种子子图的中心,在每次细化迭代中固定该边,防止子图被吸引到远离原始种子的其他密集区域。播种顶点则为种子子图提供初步形状,以便进一步细化。找到一个细化后的子图后,会阻止该子图中的边出现在后续的种子子图中,使得下一个种子子图倾向于与已发现的细化子图保持一定距离。同时,在细化过程中并不禁止包含先前细化子图中的边,这为子图重叠提供了可能。选择的 isMorePromsing 函数更倾向于选择较大的子图作为种子,从而减少分支到图中已发现的密集区域的可能性。
实验数据与评估指标
- 数据集合 :为了评估算法性能,使用了两个数据集。PreHTMS 包含除高通量质谱研究之外的所有酵母相互作用;HTP 数据集则纯粹包含大规模研究数据。
- 评估标准 :使用 MIPS 中经过整理的蛋白质复合物(包含 267 个至少有两个蛋白质的复合物)和手动整理的 Gavin 复合物(包含 221 个复合物)作为真实标准。对于预测的复合物 $G’ = (V’, E’)$,在真实复合物集合中找到最佳匹配的复合物 $GT’ = (GT V’, GT E’)$,并使用匹配比率 $MatchRatio = \frac{|V’ \cap GT V’|}{|V’|} * \frac{|V’ \cap GT V’|}{|GT V’|}$ 来评估匹配程度。当 $MatchRatio > 0.2$ 时,认为预
超级会员免费看
订阅专栏 解锁全文
2438

被折叠的 条评论
为什么被折叠?



