gff文件_GFF文件格式简介

GFF文件(Generic Feature Format)用于描述基因组上的特征信息,如染色体、基因、转录本等。它包含9列数据,包括序列ID、特征类型、起始和结束位置等。基因、非编码基因(如假基因、tRNA、miRNA)、lncRNA和蛋白编码基因都有不同的属性表示。GFF文件的注释行以#开头,且在开头可以有序列区域信息。了解GFF格式对于基因组研究至关重要。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

鉴于代码的排版问题,建议在电脑上阅读本文。

组装得到基因组的序列只是开展基因组研究的第一步,基因的结构是基因组后续功能研究的基石。在NCBI中,除了提供基因组序列外,还提供了基因结构的信息,采用的就是GFF格式。human示例如下

GFF全称Generic Feature Format, 描述了基因组上各种特征的区间信息,包括染色体,基因,转录本等。GFF文件本质上是一个\t分隔的,共9列的纯文本文件。

1. column1

第一列是seqid, 代表序列ID, 通常是染色体的ID, 每条染色体拥有一个唯一的ID。

2. column2

第二列是source, 代表基因结构的来源,可以是数据库的名称,比如来自genebank数据库,也可以是软件的名称,比如用GeneScan软件预测得到,当然,也可以为空,用.点号填充。

3. column3

第三列是type, 代表区间对应的特征类型,比如gene, exon等。

4. column4

第四列是start, 代表区间的起始位置。

5. column5

第四列是end, 代表区间的终止位置。

6. column6

第六列是score, 软件提供了统计值,如果没有,就用.填充。

7. column7

第七列是strand, 代表正负链的信息, +表示正链,-表示负链,?表示不清楚正负链的信息,当正负链信息没有意义时,可以用.填充。

8. column8

第八列是phase,当描述的是CDS区间信息时,需要指定翻译时开始的位置,取值范围包括0,1,2。

9. column9

第九列是attributes, 表示属性,每种属性采用key=value 的形式,多个属性之间用;分号分隔。

下面看下NCBI提供的human的GFF文件,链接如下ftp://ftp.ncbi.nlm.nih.gov/genomes/H_sapiens/GFF/ref_GRCh38.p12_top_level.gff3.gz

在GFF文件的开头,可以有#开头的注释行,示例如下##gff-version 3

#!gff-spec-version 1.21

#!processor NCBI annotwriter

#!genome-build GRCh38.p12

#!genome-build-accession NCBI_Assembly:GCF_000001405.38

#!annotation-date 26 March 2018

#!annotation-source NCBI Homo sapiens Annotation Release 109

##sequence-region NC_000001.11 1 248956422

##species https://www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.cgi?id=9606

对于不同的基因组特征,其属性不同。

1. 染色体

染色体用region表示,1号染色体对应的信息如下NC_000001.11    RefSeq    region    1    248956422    .    +    .    ID=id0;Dbxref=taxon:9606;Name=1;chromosome=1;gbkey=Src;genome=chromosome;mol_type=genomic DNA

染色体是基础,后续的基因,exon等都是需要定位在染色体上的。

2. 非编码基因

对于非编码基因,首先给出基因的起始和终止位置,然后描述转录本的信息。对于转录本而言, 通过exon展示其结构。

假基因示例如下NC_000001.11    BestRefSeq    pseudogene    11874

### 使用 `gff3_to_tbl` 工具的方法 #### 安装依赖工具 为了能够顺利运行 `gff3_to_tbl` 脚本,通常需要安装一些必要的软件包。这些可能包括 Perl 及其模块、BioPerl 库以及其他辅助程序。 ```bash sudo apt-get update && sudo apt-get install -y perl bioperl ``` #### 下载并准备脚本 可以从 NCBI 或其他资源下载最新的 `gff3_to_tbl.pl` 脚本文件,并将其放置在一个合适的目录下以便执行: ```bash wget https://ftp.ncbi.nlm.nih.gov/genomes/TOOLS/gff3_to_tbl_v2.8.tar.gz tar zxvf gff3_to_tbl_v2.8.tar.gz cd gff3_to_tbl_v2.8/ chmod +x *.pl export PATH=$PATH:/path/to/gff3_to_tbl_directory ``` #### 准备输入文件 该工具主要处理 GFF3 文件作为输入数据源。确保拥有一个格式良好的 GFF3 文件用于转换操作。此外还需要 FASTA 格式的序列文件来补充基因组位置信息[^1]。 #### 运行命令示例 下面是一个简单的例子展示如何调用此工具来进行转换工作: ```bash perl gff3_to_tbl.pl input.gff3 output.tbl <fasta_sequence.fa> ``` 这里: - `input.gff3`: 是待解析的 GFF3 注释文件路径; - `output.tbl`: 将要生成的目标表格文件名; - `<fasta_sequence.fa>`: 提供给定特征的具体坐标范围内的碱基序列信息; 请注意,在实际应用过程中可能会遇到不同版本间的差异以及特定参数设置的需求,因此建议查阅官方文档获取最准确的帮助指南。 #### 验证输出结果 一旦完成了上述步骤之后,可以打开产生的 `.tbl` 文件查看结构化后的表单内容是否符合预期标准。如果一切正常,则说明已经成功掌握了基本的操作流程。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值