基于负信息的转录因子基序发现方法研究
在计算生物学领域,基序发现是解开生物体转录调控网络的重要工具。其基本模型认为,转录因子会与受其调控基因附近基因间区域的特定短序列(即“基序”)结合。随着全基因组数据集的日益丰富,我们可以通过计算方法预测某些基序,而无需进行繁琐的实验。本文将重点探讨一种结合全基因组转录因子结合数据、基因表达数据和基因组序列数据来发现酿酒酵母(S. cerevisiae)中基序的方法。
1. 基序发现的背景与问题
在基序发现中,染色质免疫沉淀(ChIP)微阵列实验可以确定特定转录因子在基因组中结合的位置,精确到单个基因间区域(通常为500 - 2000 bp)。GRAM算法则将这种全基因组位置信息与基因表达实验相结合,能够发现那些可能被转录因子结合,但在ChIP实验中信号不强的基因间区域。
为了进行基序发现,基因间区域被分为两类:一类是转录因子被认为会结合的区域(根据原始ChIP实验或通过类似GRAM的算法整合额外信息后确定),称为“正基因间序列”;另一类是转录因子不结合的区域,称为“负基因间序列”。
如果算法仅使用正序列进行基序发现,很可能会发现许多假基序。这些假基序是由在基因组所有基因间序列中频繁出现的序列引起的。例如,在酿酒酵母中,多聚A(连续的腺嘌呤核苷酸长串)和多聚CA(交替的胞嘧啶和腺嘌呤核苷酸长串)就是这样的序列。
幸运的是,将结合数据与酿酒酵母基因组的完整测序相结合,为我们提供了一种概念上简单的方法来发现转录因子的基序:找到一个存在于正序列中但不存在于负序列中的序列。然而,由于实验噪声和转录因子结合的变异性,我们预计在负序列中偶尔也会发现正确基序的例子,因此我们实际上是在寻找一个在正基因间序列中相对于负基因
超级会员免费看
订阅专栏 解锁全文
17

被折叠的 条评论
为什么被折叠?



