已知基因染色体号,坐标如何快速获取基因序列

本文介绍了如何通过Bedtools高效地从人类基因组中提取特定区域的基因序列。包括下载并处理人类基因组数据、创建BED文件以及使用Bedtools进行序列提取的过程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

今天一直在尝试用python获取基因序列,原理嘛,就跟爬虫一样,但是巨慢,获取大量的基因序列的时候慎用!!,而且中途很容易出错。

然后在网上查找到,用bedtools真香

以下主要参考博客

bedtools批量提取基因组指定位置序列 - 简书 (jianshu.com)

hg19的下载与索引_狗蛋儿张的博客-优快云博客

BED 文件格式 - 简书 (jianshu.com)

我的是要从人类基因里面提取序列

首先我要获取到人类基因的fa文件

#下载人类基因组信息
wget url=http://hgdownload.cse.ucsc.edu/goldenPath/hg19/bigZips/chromFa.tar.gz
#解压
tar zvfx chromFa.tar.gz
#将所有染色体信息做成一个fa文件
cat *.fa > hg19.fa

然后了解bed格式是什么样子滴~

BED文件必须的3列:

chrom - 染色体号; 例如,chr1,chrX。。。。。。。

chromStart - feature在染色体上起始位置. 从0开始算,染色体上第一个碱基位置标记为0。

chromEnd - feature在染色体上终止位置。染色体上前100个碱基片段的位置位置标记为:chromStart=0, chromEnd=100。 实际上,第100个碱基不属于当前片段中,当前片段的碱基应该是0-99。所以在BED文件中,起始位置从0开始,终止位置从1开始。

BED文件可选的9列:

4.name - BED行名,在基因组浏览器左边显示;

5.score - 在基因组浏览器中显示的灰度设定,值介于0-1000;

6.strand - 正负链标记. Either "." (=no strand) or "+" or "-".

7.thickStart - feature起始位置。绘制特征的起始位置(例如,基因显示中的起始密码子)。当没有这部分时,thickStart和thickEnd通常设置为chromStart位置。

8.thickEnd - feature编码终止位置

9.itemRgb - R,G,B (e.g. 255,0,0)值,当itemRgb 设置为 "On",BED的行会显示颜色

10.blockCount - blocks (exons)数目

11.blockSizes - blocks (exons)大小列表,逗号分隔,对应于blockCount

12.blockStarts -blocks (exons)起始位置列表,逗号分隔,对应于blockCount.;这个起始位置是与chromStart的一个相对位置。

我把文件处理成了这样,然后把后缀名改成了.bed(我只有染色体号,起始位点,终止位点)

 最后,就可以两个文件都准备好了就可以开始bedtools了

$bedtools getfasta -fi 参考基因组.fa -bed 提取序列.bed -fo 输出文件.fa

除了转换成bed格式的文件实在自己电脑弄的,其他都在服务器上弄的

### 如何提取基因组中非编码区的开放阅读框 (ORF) 为了从基因组数据中识别和提取位于非编码区域内的开放阅读框(ORF),可以采用多种生物信息学方法和技术。通常情况下,这类工作涉及以下几个方面: #### 使用软件工具 一些专门设计用于预测和鉴定潜在ORFs的计算生物学工具能够帮助完成此任务。例如,`getorf` 是 EMBOSS 软件包的一部分,它可以从给定的核酸序列文件中找到所有的可能存在的正向以及反向互补链上的最长无中断读码框,并将其转换成相应的氨基酸序列输出。 ```bash # 安装EMBOSS套件 sudo apt-get install emboss # 运行getorf命令来寻找指定FASTA格式输入文件中的所有ORF getorf -sequence input.fasta -outseq output_orfs.faa ``` 另一个常用的选择是 `Prodigal` ,这是一种快速且高效的原核生物基因预测程序,也可以用来处理宏基因组数据集。对于真核生物,则有 Augustus 或者 GeneMark-ET 等更为复杂的模型驱动型预测器可供选用。 #### 数据预处理与筛选 由于目标是非编码区内发现新的功能性元件,在实际操作前还需要对原始基因组装配版本做适当调整。具体来说就是去除已知转录本对应的坐标范围,保留那些尚未被注释过的间插片段作为候选对象供后续分析。 可以通过对比现有的 GTF/GFF 文件记录下的 CDS 坐标位置,利用 bedtools 的 complement 功能获取未覆盖部分;或者借助其他类似的脚本来实现这一目的。 ```bash bedtools complement -i known_genes.bed -g genome_sizes.txt > intergenic_regions.bed ``` 这里假设已经准备好了描述染色体长度的信息 (`genome_sizes.txt`) 和标注了现有基因边界的 BED 格式的表格(`known_genes.bed`)。 #### 结果验证 最后一步是对所得到的结果进行质量控制和确认。这包括但不限于统计 ORF 长度分布情况、评估起始位点附近是否存在典型的 Kozak 序列特征等因素。此外还可以考虑进一步实验手段如 RT-qPCR 来检验新发现 ORF 是否确实表达为 RNA 分子[^1]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值