生物信息学工作流程解析
1. 参考基因组的比对
在创建FASTA或FASTQ文件后,我们得到了一组核苷酸序列。Illumina和BGI测序得到的序列长度通常在50 - 150个核苷酸之间,而纳米孔、PacBio或Chromium 10x测序等较新技术可产生更长的连续序列。但这些序列是无序的,它们来自经过机械和化学切割的DNA片段,且由于测序技术的限制,剩余的长DNA片段可能会被进一步切割。
这些文件中的内容本身并无太大用处。为了从新测序的DNA中获取有用信息,研究人员需要将这些片段组装成完整的DNA链。理想情况下,能将所有片段组合成46条长序列,与被采样个体的23对染色体序列相匹配。
然而,这些短读长(通常有上百万条)不包含位置信息,仅通过片段序列无法得知其在基因组中的位置,甚至无法确定来自哪条染色体。因此,需要使用参考基因组来完成片段的组装。
参考基因组的价值在于,对于给定的生物种类,个体间的遗传变异非常小。以人类为例,基因组约有30亿个核苷酸,个体间的变异约为0.1%,即30亿个核苷酸中约有300万个差异。这意味着我们可以将测序得到的片段序列与参考基因组的相似区域进行匹配,这个过程称为比对或映射。
但除了同卵双胞胎外,没有两个人的基因序列完全相同。因此,采样基因组与参考基因组的匹配不会是完全精确的。事实上,如果完全匹配,基因测序就失去了意义。进行个体测序的目的就是识别其基因组与参考基因组的差异。
将短样本与参考基因组进行匹配存在困难,原因如下:
- 基本任务是将几百个字母的序列与包含30亿个字母的参考基因组进行匹配,即使对于计算机来说,这也是一项艰巨的任务。
- 给定的样本序列可能在参考基因组中有多个匹配
超级会员免费看
订阅专栏 解锁全文


被折叠的 条评论
为什么被折叠?



