生物序列基序查找与密文关系推理系统研究
在生物信息学和密码学领域,分别存在着基序查找和密文关系推理的重要问题。下面将详细介绍这两个方面的相关算法和系统。
生物序列基序查找
在生物序列分析中,基序查找是一个关键问题。对于 (l, d)-基序问题,假设 M 是植入基序,Si 中的每个出现 Mi 与 M 的编辑距离 d(M, Mi) = d。为了减少突变字母被哈希的概率,投影维度 k 应至少为 M 和 Mi 中匹配字符串的数量,即 l - d。同时,为了捕获原始基序,希望 k 尽可能大,最优值为 (l - d - 1)。
为了最小化随机背景投影对植入桶的污染,桶阈值 s 的最优值应为桶大小 t·(n - l + 1)/4k 的两倍。但在实际挑战问题中,由于 t · (n - l + 1) << 4k,s 通常为负数。根据经验测试,对于挑战问题,s = (3, 4) 能输出显著的基序。
增加 m 的值可以使找到的基序更接近全局最优解。确定 m 的最优值需要指定一个概率 q,即植入桶在 m 次试验中至少有一次包含 s 个或更多实例的概率。m 的计算公式为:
[m = \left\lceil\frac{\log(1 - q)}{\log B_{\hat{t},\hat{p}(l,d,k)}(s)}\right\rceil]
其中,(\hat{t}) 是包含植入基序的输入序列数量的估计值,(\hat{p}(l, d, k)) 是给定植入基序被哈希到富集桶的概率,计算公式为:
[\hat{p}(l, d, k) = \frac{\binom{l - d}{k}}{\binom{l}{k}}]
在一次试验中,少于 s
超级会员免费看
订阅专栏 解锁全文
87

被折叠的 条评论
为什么被折叠?



