基因组序列中k - 元组出现频率的估计与可视化及密码子指数解读
1. k - 元组分析的重要性与应用
在基因组序列分析中,计算特定核苷酸子序列(即k - 元组)的出现频率是最基本的生物信息学操作之一。它是早期从头基因发现算法的基础。例如,FramePlot程序通过计算密码子第三位的G/C核苷酸频率,识别富含以GC结尾密码子的开放阅读框,这在细菌的富含GC的基因组中很常见。
另一个重要发现是,框内六聚体在框外的出现频率显著降低,反之亦然,这是早期基因识别程序GeneMark的核心。此外,在编码序列内外,四核苷酸的使用存在偏差,相关在线应用已被开发用于分类宏基因组样本和进行全基因组比对。基于k - 元组的方法还被用于检测下一代测序数据中的错误,其基本思想是,不常见的k - 元组可能是测序错误的结果,通过k - 元组索引可以在没有参考基因组的情况下将短读长库简化为一组正确的序列。最后,k - 元组分析在全基因组关联研究中是不可或缺的,该研究旨在识别遗传变异并将其与特定表型特征相关联。
以下是k - 元组分析的一些应用总结:
|应用场景|具体描述|
| ---- | ---- |
|基因发现|如FramePlot通过计算G/C频率识别开放阅读框|
|测序错误检测|利用不常见k - 元组识别错误|
|宏基因组样本分类|计算四核苷酸频率进行分类|
|全基因组比对|基于k - 元组进行比对|
|全基因组关联研究|识别遗传变异与表型关联|
2. 常用的k - 元组计算工具
有许多k - 元组计算器作为桌面工具可供使用,以下是一些最著名的工具:
- Cors
超级会员免费看
订阅专栏 解锁全文
19

被折叠的 条评论
为什么被折叠?



