基于进化混合模型的基序发现与基因网络估计方法
1. 基序进化与模型测试
在生物序列分析中,基序(motif)的进化速率通常比背景序列慢,呈现出一定的保守性。我们对基序的多种不同替换模型进行了测试,并总结了这些模型对 Gcn4p 靶标中基序发现的影响。然而,随着这些模型对平衡频率的依赖变得更加复杂,推导参数的最大似然(ML)估计器变得更加困难,可能需要更通用的优化方法。我们可以为每个比对设置其自身的背景速率,并将基序速率表示为背景速率的比例。
2. EM 算法训练模型参数
我们借鉴 h4EME 程序的示例,使用期望最大化(EM)算法来训练上述模型的参数。EM 算法是一种迭代优化方案,能够保证找到似然函数的局部最大值。我们写出“期望完全对数似然”:
((\ln L_c) = \sum_{i} \sum_{m_i} \ln T_{m_i} + \sum_{i} \sum_{\Delta m} (\ln p(x_{i+\Delta m}| \theta_{k,h,m,i}) + f_{m_k,b}))
其中,(\ln) 表示自然对数。通过在每次迭代中将参数的导数设为零来最大化该似然函数。
在恒定基序速率的情况下,(R_{k,m}) 是每个模型下预期变化残基与相同残基的比率,其计算公式为:
(R_{k,m} = \frac{\sum_{i=0}^{N - w} \sum_{k=i}^{i + w - 1} \sum_{b=0}^{3} (m_i) \sum_{\Delta M} (1 - y_{h,k - i,b})}{\sum_{i=0}^{N - w} \sum_{k=i}^{i + w - 1} \sum_{b=0}^{3} (m
超级会员免费看
订阅专栏 解锁全文
42

被折叠的 条评论
为什么被折叠?



