如何根据染色体坐标快速得到基因组的 DNA 序列

本文介绍三种从基因组数据库批量获取特定区域DNA序列的方法:使用twobitreader通过.2bit文件快速获取;利用UCSC在线工具以XML格式提取;及运用samtools faidx工具获得fasta格式序列。

第一种方法

这种方法的优点是速度较快,但略复杂,适合需要快速获取大批量坐标位置的情形,具体做法如下:
http://pythonhosted.org/twobitreader/ 提供了一个方便的小工具

python -m twobitreader hg19.2bit < example.bed

染色体的位置信息在 bed 文件中给出,.2bit 文件格式是 UCSC Genome Browser 的基因组序列文件索引格式,可以在 http://hgdownload.soe.ucsc.edu/goldenPath/hg19/bigZips/
下载到。UCSC Genome Browser 也提供了命令行工具可以从基因组序列文件生成 .2bit 文件。
twobitreader 可以用 pip 直接安装,也可以在 https://pypi.org/project/twobitreader/#files
下载源码安装。

第二种方法

这种方法的优点是简单,缺点是速度较慢,而且输出数据的格式是 XML。
通过 ucsc genome browser 提供的在线工具,例如想获取 chr13:32890466-32890664 区域上的 DNA 序列,访问如下 url

http://genome.ucsc.edu/cgi-bin/das/hg19
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值