都2024年了,如何快速入门基因家族分析?|所需文件介绍

目录

fasta文件是什么(染色体序列,蛋白质序列)

gff3文件是什么(基因注释是咋回事?)

总结(家族分析很粗略,轻松看待)


#编者按

        很多同学是在生信方面接触的第一个就是家族基因分析,难免会不知道这些文件是怎么回事。接下来我就逐步介绍每一个文件大概的内容。但我只能介绍到我们比较需要注意的部分,这些文件还有很多信息可能在别的方面有用。学无止境,大家未来还会接触到更多关于这些文件的知识。

我们需要我们自己物种基因组的文件

  • 染色体序列文件(your_species.dna.toplevel.fa)
  • 基因注释文件gff3 (your_species.gff3)
  • 蛋白质序列文件 (your_species.pep)

        其中序列文件我们叫做fasta格式的文件,你可以简单把后缀改为.fa

        如果你是macOS用户,后缀是什么无所谓。但是win用户可能得全部改为fa或者fasta。比如文件放进mega里的时候。macOS可以识别为fasta文件,但是win无法识别。这是一个需要注意的问题。

        一般情况下,我们命名蛋白质序列文件为pep,源自于单词 peptide(多肽链)。染色体序列就命名为fa,注释文件就是gff3或者gff。

fasta文件是什么(染色体序列,蛋白质序列)

> 基因ID 描述1|描述2|描述3|其他相关信息
序列字母

> 基因ID 描述1 描述2 描述3 其他相关信息(如何分开这些描述其实不重要)
序列字母

>AT5G16970.1 pep chromosome:TAIR10:5:5575973:5578086:-1 gene:AT5G16970 transcript:AT5G16970.1 gene_biotype:protein_coding transcript_biotype:protein_coding gene_symbol:AER description:alkenal reductase [Source:NCBI gene (formerly Entrezgene);Acc:831560]
MTATNKQVILKDYVSGFPTESDFDFTTTTVELRVPEGTNSVLVKNLYLSCDPYMRIRMGK
PDPSTAALAQAYTPGQPIQGYGVSRIIESGHPDYKKGDLLWGIVAWEEYSVITPMTHAHF
KIQHTDVPLSYYTGLLGMPGMTAYAGFYEVCSPKEGETVYVSAASGAVGQLVGQLAKMMG
CYVVGSAGSKEKVDLLKTKFGFDDAFNYKEESDLTAALKRCFPNGIDIYFENVGGKMLDA
VLVNMNMHGRIAVCGMISQYNLENQEGVHNLSNIIYKRIRIQGFVVSDFYDKYSKFLEFV
LPHIREGKITYVEDVADGLEKAPEALVGLFHGKNVGKQVVVVARE

        这就是fasta的格式,一般我们处理完会简化序列ID,就会变成

>AT5G16970.1
MTATNKQVILKDYVSGFPTESDFDFTTTTVELRVPEGTNSVLVKNLYLSCDPYMRIRMGK
PDPSTAALAQAYTPGQPIQGYGVSRIIESGHPDYKKGDLLWGIVAWEEYSVITPMTHAHF
KIQHTDVPLSYYTGLLGMPGMTAYAGFYEVCSPKEGETVYVSAASGAVGQLVGQLAKMMG
CYVVGSAGSKEKVDLLKTKFGFDDAFNYKEESDLTAALKRCFPNGIDIYFENVGGKMLDA
VLVNMNMHGRIAVCGMISQYNLENQEGVHNLSNIIYKRIRIQGFVVSDFYDKYSKFLEFV
LPHIREGKITYVEDVADGLEKAPEALVGLFHGKNVGKQVVVVARE

gff3文件是什么(基因注释是咋回事?)

        gff3文件包含的信息有,染色体编号,数据库来源,属性,起点与终点,正负链,各种级别的ID号。如下所示

1	araport11	CDS	8236	8442	.	-	0	ID=CDS:AT1G01020.4;Parent=transcript:AT1G01020.4;protein_id=AT1G01020.4
1	araport11	exon	8236	8464	.	-	.	Parent=transcript:AT1G01020.4;Name=AT1G01020.4.exon2;constitutive=0;ensembl_end_phase=0;ensembl_phase=-1;exon_id=AT1G01020.4.exon2;rank=2
1	araport11	five_prime_UTR	8443	8464	.	-	.	Parent=transcript:AT1G01020.4
1	araport11	mRNA	6788	9130	.	-	.	ID=transcript:AT1G01020.5;Parent=gene:AT1G01020;Name=ARV1-204;biotype=protein_coding;transcript_id=AT1G01020.5

        对我们有用的却很少,只有第1,3,4,5,9列,即染色体编号,属性,起点与终点,ID号。所以gff3文件之所以叫做注释文件,就是它可以告诉你,在染色体文件上,a号染色体上的b到c位置,属性是CDS、外显子、UTR还是mRNA转录的部分。一般我们提取第二列为mRNA的行,改写为bed文件。bed文件本质上就是改变列关系的gff3文件。

        我们注意到第9列,有很多ID号,我们看到第四个

ID=transcript:AT1G01020.5;Parent=gene:AT1G01020;Name=ARV1-204;biotype=protein_coding;transcript_id=AT1G01020.5

        转录ID:AT1G01020.5

        上级序列ID:gene:AT1G01020

        ID:transcript:AT1G01020.5

        一般我们直接取转录ID作为我们的最终ID来展示。我们可以注意到,上级ID没有这个“.5”,这是因为同样是AT1G01020基因,因为可变剪切的存在有产生了5个甚至更多的蛋白质序列,这些蛋白质都来自一个基因。在家族分析看来,是几其实不太重要。所以一般情况下我们只用 AT1G01020.1 的序列来做,只保留一个就好了。

总结(家族分析很粗略,轻松看待)

        所以fasta就是写上了序列的文件,gff3告诉你每一个小部分都代表了什么。我们可以使用gff3给到的信息,在基因组fasta文件里找到一个基因的全部CDS,exon,UTR,mRNA。但是这四个东西之间的关系非常微妙。不是我们这次的重点,你只需要知道我们需要提取mRNA和CDS就好了。以及因为我们本身就能下载到蛋白质序列文件,gff3文件更多的作用是帮助我们找到基因在染色体上的定位。以及做基因结构图用的(标记出exon和UTR部分)。

        家族基因分析总体上来说是一个很粗略的事情,没比较太纠结,某一个基因在gff3文件上面加减10000bp对你的结果影响是不大的。大部分我们做的染色体都将近20,000,000bp(两千万),这10000bp也才是0.05%的误差,在图上根本看不出来。家族分析的成果只是一个参考而已。大家千万别太死缠着不放。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值