35、基于进化混合模型的基序发现与基因网络估计方法

基于进化混合模型的基序发现与基因网络估计方法

1. 基序进化与模型测试

在生物序列分析中,基序(motif)的进化速率通常比背景序列慢,呈现出一定的保守性。我们对基序的多种不同替换模型进行了测试,并总结了这些模型对 Gcn4p 靶标中基序发现的影响。然而,随着这些模型对平衡频率的依赖变得更加复杂,推导参数的最大似然(ML)估计器变得更加困难,可能需要更通用的优化方法。我们可以为每个比对设置其自身的背景速率,并将基序速率表示为背景速率的比例。

2. EM 算法训练模型参数

我们借鉴 h4EME 程序的示例,使用期望最大化(EM)算法来训练上述模型的参数。EM 算法是一种迭代优化方案,能够保证找到似然函数的局部最大值。我们写出“期望完全对数似然”:
((\ln L_c) = \sum_{i} \sum_{m_i} \ln T_{m_i} + \sum_{i} \sum_{\Delta m} (\ln p(x_{i+\Delta m}| \theta_{k,h,m,i}) + f_{m_k,b}))
其中,(\ln) 表示自然对数。通过在每次迭代中将参数的导数设为零来最大化该似然函数。

在恒定基序速率的情况下,(R_{k,m}) 是每个模型下预期变化残基与相同残基的比率,其计算公式为:
(R_{k,m} = \frac{\sum_{i=0}^{N - w} \sum_{k=i}^{i + w - 1} \sum_{b=0}^{3} (m_i) \sum_{\Delta M} (1 - y_{h,k - i,b})}{\sum_{i=0}^{N - w} \sum_{k=i}^{i + w - 1} \sum_{b=0}^{3} (m

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值