目录
#编者按
很多同学是在生信方面接触的第一个就是家族基因分析,难免会不知道这些文件是怎么回事。接下来我就逐步介绍每一个文件大概的内容。但我只能介绍到我们比较需要注意的部分,这些文件还有很多信息可能在别的方面有用。学无止境,大家未来还会接触到更多关于这些文件的知识。
我们需要我们自己物种基因组的文件
- 染色体序列文件(your_species.dna.toplevel.fa)
- 基因注释文件gff3 (your_species.gff3)
- 蛋白质序列文件 (your_species.pep)
其中序列文件我们叫做fasta格式的文件,你可以简单把后缀改为.fa
如果你是macOS用户,后缀是什么无所谓。但是win用户可能得全部改为fa或者fasta。比如文件放进mega里的时候。macOS可以识别为fasta文件,但是win无法识别。这是一个需要注意的问题。
一般情况下,我们命名蛋白质序列文件为pep,源自于单词 peptide(多肽链)。染色体序列就命名为fa,注释文件就是gff3或者gff。
fasta文件是什么(染色体序列,蛋白质序列)
> 基因ID 描述1|描述2|描述3|其他相关信息
序列字母
> 基因ID 描述1 描述2 描述3 其他相关信息(如何分开这些描述其实不重要)
序列字母
>AT5G16970.1 pep chromosome:TAIR10:5:5575973:5578086:-1 gene:AT5G16970 transcript:AT5G16970.1 gene_biotype:protein_coding transcript_biotype:protein_coding gene_symbol:AER description:alkenal reductase [Source:NCBI gene (formerly Entrezgene);Acc:831560]
MTATNKQVILKDYVSGFPTESDFDFTTTTVELRVPEGTNSVLVKNLYLSCDPYMRIRMGK
PDPSTAALAQAYTPGQPIQGYGVSRIIESGHPDYKKGDLLWGIVAWEEYSVITPMTHAHF
KIQHTDVPLSYYTGLLGMPGMTAYAGFYEVCSPKEGETVYVSAASGAVGQLVGQLAKMMG
CYVVGSAGSKEKVDLLKTKFGFDDAFNYKEESDLTAALKRCFPNGIDIYFENVGGKMLDA
VLVNMNMHGRIAVCGMISQYNLENQEGVHNLSNIIYKRIRIQGFVVSDFYDKYSKFLEFV
LPHIREGKITYVEDVADGLEKAPEALVGLFHGKNVGKQVVVVARE
这就是fasta的格式,一般我们处理完会简化序列ID,就会变成
>AT5G16970.1
MTATNKQVILKDYVSGFPTESDFDFTTTTVELRVPEGTNSVLVKNLYLSCDPYMRIRMGK
PDPSTAALAQAYTPGQPIQGYGVSRIIESGHPDYKKGDLLWGIVAWEEYSVITPMTHAHF
KIQHTDVPLSYYTGLLGMPGMTAYAGFYEVCSPKEGETVYVSAASGAVGQLVGQLAKMMG
CYVVGSAGSKEKVDLLKTKFGFDDAFNYKEESDLTAALKRCFPNGIDIYFENVGGKMLDA
VLVNMNMHGRIAVCGMISQYNLENQEGVHNLSNIIYKRIRIQGFVVSDFYDKYSKFLEFV
LPHIREGKITYVEDVADGLEKAPEALVGLFHGKNVGKQVVVVARE
gff3文件是什么(基因注释是咋回事?)
gff3文件包含的信息有,染色体编号,数据库来源,属性,起点与终点,正负链,各种级别的ID号。如下所示
1 araport11 CDS 8236 8442 . - 0 ID=CDS:AT1G01020.4;Parent=transcript:AT1G01020.4;protein_id=AT1G01020.4
1 araport11 exon 8236 8464 . - . Parent=transcript:AT1G01020.4;Name=AT1G01020.4.exon2;constitutive=0;ensembl_end_phase=0;ensembl_phase=-1;exon_id=AT1G01020.4.exon2;rank=2
1 araport11 five_prime_UTR 8443 8464 . - . Parent=transcript:AT1G01020.4
1 araport11 mRNA 6788 9130 . - . ID=transcript:AT1G01020.5;Parent=gene:AT1G01020;Name=ARV1-204;biotype=protein_coding;transcript_id=AT1G01020.5
对我们有用的却很少,只有第1,3,4,5,9列,即染色体编号,属性,起点与终点,ID号。所以gff3文件之所以叫做注释文件,就是它可以告诉你,在染色体文件上,a号染色体上的b到c位置,属性是CDS、外显子、UTR还是mRNA转录的部分。一般我们提取第二列为mRNA的行,改写为bed文件。bed文件本质上就是改变列关系的gff3文件。
我们注意到第9列,有很多ID号,我们看到第四个
ID=transcript:AT1G01020.5;Parent=gene:AT1G01020;Name=ARV1-204;biotype=protein_coding;transcript_id=AT1G01020.5
转录ID:AT1G01020.5
上级序列ID:gene:AT1G01020
ID:transcript:AT1G01020.5
一般我们直接取转录ID作为我们的最终ID来展示。我们可以注意到,上级ID没有这个“.5”,这是因为同样是AT1G01020基因,因为可变剪切的存在有产生了5个甚至更多的蛋白质序列,这些蛋白质都来自一个基因。在家族分析看来,是几其实不太重要。所以一般情况下我们只用 AT1G01020.1 的序列来做,只保留一个就好了。
总结(家族分析很粗略,轻松看待)
所以fasta就是写上了序列的文件,gff3告诉你每一个小部分都代表了什么。我们可以使用gff3给到的信息,在基因组fasta文件里找到一个基因的全部CDS,exon,UTR,mRNA。但是这四个东西之间的关系非常微妙。不是我们这次的重点,你只需要知道我们需要提取mRNA和CDS就好了。以及因为我们本身就能下载到蛋白质序列文件,gff3文件更多的作用是帮助我们找到基因在染色体上的定位。以及做基因结构图用的(标记出exon和UTR部分)。
家族基因分析总体上来说是一个很粗略的事情,没比较太纠结,某一个基因在gff3文件上面加减10000bp对你的结果影响是不大的。大部分我们做的染色体都将近20,000,000bp(两千万),这10000bp也才是0.05%的误差,在图上根本看不出来。家族分析的成果只是一个参考而已。大家千万别太死缠着不放。