6、蛋白质复合物拓扑结构的重建算法研究

蛋白质复合物拓扑结构的重建算法研究

1. 蒙特卡罗 EM 算法的推理

在蛋白质相互作用研究中,我们将之前的 EM 算法进行了扩展,以纳入 AP - MS 观察模型。假设误差率 Φ 已知,我们的主要任务是估计结构域 - 结构域相互作用(DDI)的概率 Θ。在实际应用中,已有许多关于酵母双杂交(Y2H)和亲和纯化 - 质谱(AP - MS)数据集误差率的估计。

精确计算相关公式需要枚举完全图中所有可能的生成树,这在计算上是不可行的。因此,我们采用蒙特卡罗方法来近似计算。具体操作如下:
1. 从均匀分布中生成随机树,通过在顶点集为 O 的完全图上进行简单随机游走高效实现。
2. 为了模拟假阳性,从 O 中随机选择一组顶点作为假阳性,然后在剩余顶点集上进行简单随机游走。
3. 为确保所选树的唯一性,使用依赖于树结构的哈希函数维护哈希表。
4. 对于 AP - MS 纯化,最初生成的树(样本)数量根据纯化大小确定,并且在 EM 算法的每次迭代中均匀增加,以提高近似的准确性。

1.1 EM 算法的扩展

EM 算法的 E 步需要计算二元潜在变量 (D_{ij}^{mn}) 的二项充分统计量,该变量表示蛋白质 i 和 j 中结构域 m 和 n 之间相互作用的存在。对于 AP - MS 纯化,需要考虑两种情况:
- 当 ((i, j) \in O \times O) 时:
[
E(D_{ij}^{mn}|\Theta^{(t - 1)}, \Phi) = \theta_{mn}^{(t - 1)} \frac{Pr(O|D_{ij}^{mn}, \Theta^{(t - 1)}, \Phi)}{Pr(O|

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值