- 博客(23)
- 收藏
- 关注
原创 (22)基因功能注释和富集分析相关
基因结构预测 (拿到预测的蛋白序列、gff3文件那些)#基因功能注释##常用数据库:Nr:NCBI官方非冗余蛋白数据库,包括PDB, Swiss-Prot, PIR, PRF;
2024-01-04 10:46:31
4437
2
原创 (24)放射盘石耳基因与南极石耳基因相对【本地blast大法】
1.根据Orthogroups.tsv中查找同源基因,也可以去Orthogroups.Genecount中查一下每个物种中数量,看是否单拷贝)3.将gapfitered中找到的比对序列和查到的同源南极石耳序列放到一起,用MEGA比对一下,看序列是否一致。可以看到是24个物种的比对情况,其中就有比对的南极石耳的相关序列,但是可能会有空缺,不全等,不要紧。这个代码的意思是对文件夹下的每一个XX_modified文件中U.an序列挑出来形成一个新的文件。(5)本地blast,其实就俩步,一建库,二比对。
2023-12-14 22:25:15
925
原创 (18)使用PAMLcodeml进行正选择分析
PAML网站: http://abacus.gene.ucl.ac.uk/software/paml.html。
2023-10-12 11:32:15
2826
原创 (13)共线性比对相关(感谢zyr师姐大大!!!)
输入文件:1)待比对的全基因组文件(屏蔽了重复序列的)2)参考物种的gff格式文件(gene transfer format),用来对基因组进行注释#一定要注意!基因组文件里面的scaffold和gff3的命名要一致,这样才能切基因,做下游!!!####再次注意!!!做基因预测的时候字符不能大于16,所以还是拿scaffold_XX,去预测,然后注意基因组文件和gff3的对应!!!后期有空再出师姐的代码解读工作。
2023-09-08 11:24:08
1247
4
原创 (12)清除序列!!!
众所周知,地衣中主要成分是地衣型真菌和共生藻,但是也含有丰富的内生细菌和内生真菌。本课题对地衣标本进行二代测序,得到30G下机数据,需要一点点去除其中的非地衣成分,得到真正的属于地衣的测序数据,然后进行组装。以北极石耳U.arctica为例需要准备:测序数据BJ_1.fastq、BJ_2.fastq,以及用SPAdes组装好的scaffold.fasta,还有用EUKreq抽出的原核序列scaffolds.prokarya.fasta。
2023-06-29 22:17:31
152
原创 (11)Orthofinder同源比对&建树
如 OrthoFinder 自带案例(ExampleData)中总共包含 2733 个基因,MCL 将 2202 个基因划分为 604 个 orthogroups(gene_num > 2),剩余 531 个基因为离散点(每个基因独立成组)。SpeciesTree_Gene_Duplications_0.5_Support.txt:记录了物种树每个节点、分枝上包含的基因复制事件的总和,格式为节点或物种名 + 数字(基因复制事件数量)。输出文件 N0.tsv,N1.txt,N2.tsv,…
2023-06-19 17:40:14
4706
原创 (5)基因组基本特征分析
第三行代码使用硬遮蔽N(hardmaskN)类型,将Umbilicaria_deusta.fasta文件根据repeat注释的genome.repeat.gff3文件进行遮蔽,并生成一个名为 genome.hardmaskN.fasta 的遮蔽后的基因组Fasta文件。然后打开该网址,输入邮箱,选择Upload选项,然后提交该XX.gbf文件,然后默认选项,点击submit提交,等待结果。#根据重复注释的GFF3文件对基因组Fasta文件进行遮蔽,生成三个遮蔽后的基因组Fasta文件。
2023-06-05 18:14:26
589
原创 (9)Augustus模型训练
每进行一个参数的优化时: 将 training.gb.train.test 文件中 800 个基因随机分成 16 等份,取其中 15 等份和 training.gb.onlytrain 中的基因模型一起进行 training,剩下的 1 等份用于精确行评估 要对每个等份都进行一次精确性评估;优化的每个参数会分别 3~4 个值,每个值得到一个 training 的精确值,对参数的多个设定值进行比较,找到最佳的值。#利用本地notepad++,保存要去除蛋白的名称,就像上面的那个lst一样,然后上传服务器。
2023-05-26 11:32:15
564
7
原创 (10)使用Mash估计遗传距离
老师说需要用单拷贝基因构建系统发育树,那样才是体现系统发育关系,更准确鉴定物种。#然后手动将所有的.mash文件放到同一目录下。#这是根据遗传距离建的树,体现遗传距离上的远近。
2023-05-26 11:01:52
240
原创 (8)抽取真核序列并注释
结果文件会生成一个.csv和.log文件,从表格文件中查看评估的完整度和污染度,从日志文件中查看评估出的物种的ID号,然后去NCBI数据库中去查找。# 本次比对到多为716546,视为地衣型真菌,13786为Treboxia属,视为共生藻。# 比对结束后保留分箱得到的.fasta文件,其他的皆可删掉~#使用EukRep抽取真核基因,然后再metawrap分箱。
2023-05-25 17:56:03
109
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人