序列模式发现与识别技术解析
1. 算法基础:EM 与 Gibbs 采样
在序列模式发现领域,EM 算法和 Gibbs 采样是两种重要的方法。EM 算法对所有 l - 聚体(l - mers)取加权平均,而 Gibbs 采样则从所有 l - 聚体中进行加权抽样。经过足够的迭代,算法能够有效地对概率模式 PWM(位置权重矩阵)似然的联合概率分布进行抽样,并且会像 EM 算法一样收敛到局部最大值。
MEME 是 EM 算法的改进版本,它具有以下优势:
- 去除了概率模式在每个输入序列中恰好出现一次的假设。
- 可以强制报告多个模式,而非仅一个最佳模式。
- 增加了找到全局最优模式的机会。
2. 模式质量评估
模式质量评估对于用户对发现的模式进行排序至关重要。对于确定性模式,常用的评分函数是 z - 分数;对于概率模式,除了之前介绍的相对熵,还有其他评分方法。
2.1 z - 分数
z - 分数用于评估模式的统计显著性,它衡量在随机背景模型生成的输入序列中,观察到与模式相同出现次数的可能性。以下是计算步骤:
1. 假设我们有 100 个长度为 $L_i$ 的序列,以及一个长度为 $l$ 、出现次数为 $k_P$ 的模式 $P$。每个序列中 $P$ 可能出现的次数为 $L_i - l + 1$,那么潜在出现的总次数为 $\sum_{i = 0}^{100}(L_i - l + 1)$。
2. 通过背景模型计算模式 $P$ 在第 $i$ 个序列的第 $j$ 个位置出现的概率 $P_{rij}$。设 $X_{ij}$ 为伯努利变量,表示 $P$ 是否在第 $i$ 个序列的第 $
超级会员免费看
订阅专栏 解锁全文
15万+

被折叠的 条评论
为什么被折叠?



