高效挖掘相关蛋白质 - DNA 结合核心的算法
在生物信息学领域,挖掘蛋白质 - DNA 关联规则对于理解基因调控机制至关重要。传统方法在挖掘潜在的转录因子(TF)和转录因子结合位点(TFBS)的结合核心时存在一定局限性,而本文提出了一种高效的算法来解决这些问题。
相关工作
在计算生物学界,基于序列的模式发现问题,即基序发现,已经得到了广泛研究。许多方法致力于从序列数据中分别识别 TF 或 TFBS 上的结合核心,但现有方法未能关联潜在的 TF 和 TFBS 结合核心,也未提供它们之间的直接联系。即便分别发现了正确的 TF 和 TFBS 结合核心,它们也未必是对应的匹配项。因此,关联潜在的 TF - TFBS 结合核心既新颖又具有重要意义,可通过利用生物数据库(如 TRANSFAC)中丰富的结合序列对来实现。
在数据库领域,关联规则挖掘的目标是在事务数据库中找出所有频繁独立出现(支持度)且相关出现(置信度)的共存项集。Apriori 算法是经典算法,相关研究致力于改进和扩展类似 Apriori 的算法。近期的序列模式挖掘将客户的有序交易视为序列,寻找频繁的序列模式,也有针对生物序列的序列模式研究。然而,本文的问题与上述两类问题本质不同,它旨在找出数据库中两种不同类型频繁子序列之间的共存关系,且只考虑由字母组成的连续子序列,因此上述领域的算法不能直接应用于本文问题。
此前,通过将 TRANSFAC 数据库转换为事务数据库格式并应用 Apriori 算法生成关联规则,但该方法存在局限性:只能挖掘固定长度子序列之间的关联规则;转换后的数据库规模庞大;会生成两侧仅含 TF 或 TFBS 的无关关联规则。本文将正式定义问题并设计高效算法克服这些缺点,提高可扩展性。 </
超级会员免费看
订阅专栏 解锁全文
20

被折叠的 条评论
为什么被折叠?



