细菌操纵子结构预测与蛋白质功能区域发现的研究进展
一、芽孢杆菌操纵子结构预测
1.1 实验背景与数据来源
在实验验证操纵子边界时,将非操纵子基因对误分类为操纵子基因对的代价较高。因此,即便后验概率略低于 50%,我们也可将基因对暂归为操纵子对。我们结合基因间距离以及 99 个基因破坏实验和 75 个时间进程表达测量中的基因表达相似性,来预测枯草芽孢杆菌(Bacillus subtilis)的操纵子结构。从 635 个已知操纵子列表中,我们找出了 582 个操纵子对和 91 个非操纵子对。
1.2 操纵子结构预测因子
1.2.1 操纵子长度
操纵子长度的分布可通过几何分布来描述,公式为 (Pr [operon contains n genes] = p^{n - 1} (1 - p )) ,这里将操纵子视为具有概率 (p) 的伯努利过程产生的结果。从表 1 可知平均操纵子长度 (\bar{n}=2.39) ,由此可计算出先验概率 (p = 0.581) 。需要注意的是,除单基因操纵子外,已知操纵子都会对已知操纵子对集合有贡献,而非操纵子对只有在相邻两个操纵子都已知时才能被发现。若直接从已知操纵子对和非操纵子对的数量来估计 (p) ,会导致严重的偏差估计。
|基因数量/操纵子|数量|
| ---- | ---- |
|70|4|
|13, 14, 15|35|
|9|5|
|16|31|
|10|2|
|31| - |
1.2.2 基因间距离
利用已知操纵子对和非操纵子对列表,基于 Epanechnikov 核
超级会员免费看
订阅专栏 解锁全文
64

被折叠的 条评论
为什么被折叠?



