35、基于进化混合模型的基序发现与基因网络估计方法

最新推荐文章于 2025-11-14 09:00:50 发布

flink9streamer

最新推荐文章于 2025-11-14 09:00:50 发布

阅读量15

点赞数

CC 4.0 BY-SA版权

分类专栏：生物计算的演进之路文章标签：基序发现进化混合模型 EM算法

本文链接：https://blog.youkuaiyun.com/flink9streamer/article/details/154861338

生物计算的演进之路专栏收录该内容

61 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

基于进化混合模型的基序发现与基因网络估计方法

1. 基序进化与模型测试

在生物序列分析中，基序（motif）的进化速率通常比背景序列慢，呈现出一定的保守性。我们对基序的多种不同替换模型进行了测试，并总结了这些模型对 Gcn4p 靶标中基序发现的影响。然而，随着这些模型对平衡频率的依赖变得更加复杂，推导参数的最大似然（ML）估计器变得更加困难，可能需要更通用的优化方法。我们可以为每个比对设置其自身的背景速率，并将基序速率表示为背景速率的比例。

2. EM 算法训练模型参数

我们借鉴 h4EME 程序的示例，使用期望最大化（EM）算法来训练上述模型的参数。EM 算法是一种迭代优化方案，能够保证找到似然函数的局部最大值。我们写出“期望完全对数似然”：
((\ln L_c) = \sum_{i} \sum_{m_i} \ln T_{m_i} + \sum_{i} \sum_{\Delta m} (\ln p(x_{i+\Delta m}| \theta_{k,h,m,i}) + f_{m_k,b}))
其中，(\ln) 表示自然对数。通过在每次迭代中将参数的导数设为零来最大化该似然函数。

在恒定基序速率的情况下，(R_{k,m}) 是每个模型下预期变化残基与相同残基的比率，其计算公式为：
(R_{k,m} = \frac{\sum_{i=0}^{N - w} \sum_{k=i}^{i + w - 1} \sum_{b=0}^{3} (m_i) \sum_{\Delta M} (1 - y_{h,k - i,b})}{\sum_{i=0}^{N - w} \sum_{k=i}^{i + w - 1} \sum_{b=0}^{3} (m

会员秒杀 ¥9.9 重磅福利

超级会员免费看