如何获得hg38外显子的bed文件?

本文介绍了bed文件和gtf文件的基础知识,并详细阐述了如何利用gtf文件,通过Linux命令行工具获取hg38参考基因组的外显子bed文件,涉及grep、awk、sort、bedtools等工具的使用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、bed文件介绍

bed文件是一种记录基因组不同(功能)区域在基因组上的位置以及其它注释信息的文本文件。它包含了由空格或者tab分隔的不同列,以记录不同的信息,每一行对应一个区域。它最早出现于人类基因组计划中,后被广泛应用。因为它不直接在基因组上进行标记和修改,在使用上更具效率。

bed文件最开始并没有一个标准的格式,因此 UCSC Genome Browser 对它的描述逐渐成为了大家的参考标准。它最少为3列,最多可为12列。bed文件辅助 UCSC Genome Browser 对不同片段进行可视化展示,因此第三行以后的信息多和如何展示这一区域有关,我就不在这里赘述了。以下是前三行的内容

  1. chrom:染色体或者scaffold的名字;

  2. chromStart:在染色体或者scaffold上的起始位置(包含起始位置对应的碱基对),如果是染色体的话,第一个碱基对的位置被标记为0;

  3. chromEnd:在染色体或者scaffold上的终止位置(该终止位置的碱基对不被包含在内);

* scaffold:我们在二代测序中,获得的片段是reads,由reads组装成的为contigs,而contigs进一步组装,就能得到scaffold。

一个最简单的bed文件如下图所示:

因此,如果我们想要获得hg38参考基因组相对应的、包含外显子注释信息的参考基因组,最重要的,就是获得每一个染色体上外显子的起始位置终止位置

二、gtf文件介绍

相对应的gtf文件能够帮助我们获得想要的注释信息。gtf文件是由tab分隔的、

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值