蛋白质复合物拓扑结构的重建算法研究
1. 蒙特卡罗 EM 算法的推理
在蛋白质相互作用研究中,我们将之前的 EM 算法进行了扩展,以纳入 AP - MS 观察模型。假设误差率 Φ 已知,我们的主要任务是估计结构域 - 结构域相互作用(DDI)的概率 Θ。在实际应用中,已有许多关于酵母双杂交(Y2H)和亲和纯化 - 质谱(AP - MS)数据集误差率的估计。
精确计算相关公式需要枚举完全图中所有可能的生成树,这在计算上是不可行的。因此,我们采用蒙特卡罗方法来近似计算。具体操作如下:
1. 从均匀分布中生成随机树,通过在顶点集为 O 的完全图上进行简单随机游走高效实现。
2. 为了模拟假阳性,从 O 中随机选择一组顶点作为假阳性,然后在剩余顶点集上进行简单随机游走。
3. 为确保所选树的唯一性,使用依赖于树结构的哈希函数维护哈希表。
4. 对于 AP - MS 纯化,最初生成的树(样本)数量根据纯化大小确定,并且在 EM 算法的每次迭代中均匀增加,以提高近似的准确性。
1.1 EM 算法的扩展
EM 算法的 E 步需要计算二元潜在变量 (D_{ij}^{mn}) 的二项充分统计量,该变量表示蛋白质 i 和 j 中结构域 m 和 n 之间相互作用的存在。对于 AP - MS 纯化,需要考虑两种情况:
- 当 ((i, j) \in O \times O) 时:
[
E(D_{ij}^{mn}|\Theta^{(t - 1)}, \Phi) = \theta_{mn}^{(t - 1)} \frac{Pr(O|D_{ij}^{mn}, \Theta^{(t - 1)}, \Phi)}{Pr(O|
超级会员免费看
订阅专栏 解锁全文
1163

被折叠的 条评论
为什么被折叠?



