基因组岛预测与基因聚类算法对比研究
1. 基因组岛预测
1.1 全基因组尺度基因组岛预测流程
全基因组尺度的原核生物基因组岛预测基于一个基于决策树的集成模型,该模型是在113个基因组的训练集上构建的。预测所需的输入包括:(a)全基因组序列;(b)基因组的基因注释。具体预测流程如下:
1. 滑动窗口 :沿着查询基因组滑动一个合适大小的窗口(本研究中为8kb)。选择8kb的窗口大小是因为到目前为止发现的最小基因组岛就是8kb长的序列片段。对于更长的基因组岛,将在第4步进行拼接。
2. 计算特征值 :计算每个窗口的特征值(IVOM分数、高表达基因数量HEG和平均基因间距离AverageID)。
3. 分类 :使用基于决策树的集成模型对扫描的每个窗口片段进行分类,结果为基因组岛片段(GI segment)或非基因组岛片段(non - GI segment)。
4. 后处理 :对第3步分类后的结果进行后处理。如果发现几个连续的基因组岛片段,则将它们视为一个大的基因组岛。
下面是该流程的mermaid流程图:
graph LR
A[输入全基因组序列和基因注释] --> B[滑动8kb窗口]
B --> C[计算特征值]
C --> D[分类窗口片段]
D --> E{是否连续GI片段}
E -- 是 --> F[合并为一个大GI]
E --
超级会员免费看
订阅专栏 解锁全文
36

被折叠的 条评论
为什么被折叠?



