6、蛋白质复合物拓扑结构的重建算法研究

最新推荐文章于 2025-11-06 12:13:43 发布

purple

最新推荐文章于 2025-11-06 12:13:43 发布

阅读量792

点赞数

CC 4.0 BY-SA版权

分类专栏：解读《计算分子生物学研究》精华文章标签：蛋白质复合物拓扑结构重建蒙特卡罗EM算法

本文链接：https://blog.youkuaiyun.com/purple/article/details/149602912

解读《计算分子生物学研究》精华专栏收录该内容

68 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

蛋白质复合物拓扑结构的重建算法研究

1. 蒙特卡罗 EM 算法的推理

在蛋白质相互作用研究中，我们将之前的 EM 算法进行了扩展，以纳入 AP - MS 观察模型。假设误差率 Φ 已知，我们的主要任务是估计结构域 - 结构域相互作用（DDI）的概率 Θ。在实际应用中，已有许多关于酵母双杂交（Y2H）和亲和纯化 - 质谱（AP - MS）数据集误差率的估计。

精确计算相关公式需要枚举完全图中所有可能的生成树，这在计算上是不可行的。因此，我们采用蒙特卡罗方法来近似计算。具体操作如下：
1. 从均匀分布中生成随机树，通过在顶点集为 O 的完全图上进行简单随机游走高效实现。
2. 为了模拟假阳性，从 O 中随机选择一组顶点作为假阳性，然后在剩余顶点集上进行简单随机游走。
3. 为确保所选树的唯一性，使用依赖于树结构的哈希函数维护哈希表。
4. 对于 AP - MS 纯化，最初生成的树（样本）数量根据纯化大小确定，并且在 EM 算法的每次迭代中均匀增加，以提高近似的准确性。

1.1 EM 算法的扩展

EM 算法的 E 步需要计算二元潜在变量 (D_{ij}^{mn}) 的二项充分统计量，该变量表示蛋白质 i 和 j 中结构域 m 和 n 之间相互作用的存在。对于 AP - MS 纯化，需要考虑两种情况：
- 当 ((i, j) \in O \times O) 时：
[
E(D_{ij}^{mn}|\Theta^{(t - 1)}, \Phi) = \theta_{mn}^{(t - 1)} \frac{Pr(O|D_{ij}^{mn}, \Theta^{(t - 1)}, \Phi)}{Pr(O|

会员秒杀 ¥9.9 重磅福利

超级会员免费看