- 博客(16)
- 收藏
- 关注
原创 GWAS--批量计算SNP位点的基因频率
这是脚本的路径,表示存储在用户主目录下的 software/dai_scripts 目录中的 calculate_allele_frequency.py 脚本。现在想要计算每个SNP位点不同的基因频率,并统计每个位点不同基因型个数,如果手动计算的话就是下面这样计算,本次使用的脚本也是这个思路计算的。:这是输出文件的名称,脚本计算出的结果(包括等位基因频率和基因型计数)将会被写入到这个文件中。:如果自己的数据格式和我的不一样,比如是Hapmap格式的文件(下面3行内容不对,别看了。
2025-04-03 19:34:19
919
原创 利用OrthoFinder做泛基因家族聚类分析
这条命令会将 Arabidopsis_thaliana.TAIR10.59_longest_trans.pep.fa 文件中的所有序列ID,去掉ID中的空格后面的部分,只保留 > 后第一个空格之前的基因ID,并将结果保存在 An1.fasta 文件中。muscle 是一种常用的多序列比对工具,用于基因组或蛋白质序列的比对。基因家族(Gene family),是来源于同一个祖先,由一个基因通过基因重复而产生两个或更多的拷贝而构成的一组基因,它们在结构和功能上具有明显的相似性,编码相似的蛋白质产物。
2025-04-03 19:13:23
492
原创 BUSCO评估基因组的完整性
因为数据库收集的时候找的就是在不同的物种间都是单拷贝的基因,所以说在评估的物种里面应该也是单拷贝的状态才对。基因组层面评估:先去基因组上预测这些基因,再去做评估,如果说给他是一个注释好的基因集,这个时候提供的是一个蛋白集合,它就直接是去进行同源搜索,再去评估,看BUSCO数据库里面的这些单拷贝基因有或者无;首先,tblastn也是同源搜索,同源搜索之后,去对转录本进行读码框预测,预测完的结果还是去进行hmmsearch的搜索(hmmsearch是做蛋白质结构域搜索的),最终拿到BUSCO评估结果。
2025-04-03 18:57:13
811
原创 使用python脚本把indel的vcf格式文件转化为plink格式文件
脚本会处理all.clean.indel.plink.vcf.vcf 文件,将提取出的数据(例如,CHROM、POS、REF、ALT 以及所有样本的基因型)写入 all.clean.indel.plink.vcf.txt 文件。process_vcf.py 是要执行的 Python 脚本文件名,脚本的作用是处理 VCF 文件并提取特定的列。3) all.clean.indel.plink.vcf 输出文件,是转换后的 VCF 文件。查看转换后的 all.clean.indel.plink.vcf 文件。
2025-04-03 18:40:08
762
原创 使用MAKER进行基因组注释报错及解决办法
从这个帖子里找到解决方法:https://github.com/Dfam-consortium/RepeatMasker/issues/208。也即是找到自己RepeatMasker软件安装的文件夹,然后修改其中。文件里面的内容是下面这样的,报错就解决了。
2024-12-01 15:52:43
168
转载 使用annovar对重测序结果SNP和INDEL变异位点进行注释
以tab分割,第1列为.variant_function文件中该变异所在行号,第2列为变异功能性后果,如外显子改变导致的氨基酸变化,阅读框移码,无义突变,终止突变等,第3列包括基因名称、转录识别标志和相应的转录本的序列变化,从第4列开始及后面的所有列其实是输入文件内容(all.clean.snp.annovar.input表格里面的内容)。使用annovar提供了两个脚本以供注释使用:annotate_variation.pl一次注释一个数据库,table_annovar.pl一次注释多个数据库。
2024-05-25 21:55:38
4100
1
转载 Python--从VCF文件中提取出各个样本的变异信息,并按特定的格式重新组织这些数据
归一化后各基因型的可能性,通常有三个数字用','隔开,顺序对应AA,AB,BB基因型,A代表REF,B代表ALT(也就是0/0, 0/1, and 1/1),由于是归一化之后,数值越小代表基因型越可靠;它首先解析VCF文件中的各列,然后针对每个样本的数据,提取和处理基因型信息、深度信息等,最后将处理后的数据重新组织并写入到输出文件中。,因为在GATK中再大的值是没有意义的,第二小的数大于99的话一般说明基因型的判读是很可靠的,只有当第二小的数小于99的时候,才有必要怀疑基因型的可靠性。
2024-05-25 21:43:54
1303
转载 Linux常用传输工具--scp
如果想使用指定用户的身份进行验证,可使用用户名@主机地址的参数格式。最后需要在远程主机的IP地址后面添加冒号,并在后面写上要传送到远程主机的哪个文件夹中。例如,如果想把一些文件通过网络从一台主机传递到其他主机,这两台主机又恰巧是Linux系统,这时使用scp命令就可以轻松完成文件的传递了。如果文件夹里面有以中文命令名的文件,可以从windows上传到linux服务器上,但是从linux服务器传到windows会报错。scp 是加密的,rcp 是不加密的,scp 是 rcp 的加强版。
2024-05-25 21:34:46
195
转载 手动安装R包
2、去https://bioconductor.org/下载R包源码。3、把下载的R包源码拖到服务器的R包默认安装路径下。1、先查询一下在linux下R包的安装路径。这里以安装rtracklayer包为例。二、BiocManager安装。加载R包,发现安装成功。
2024-05-25 21:27:30
1145
转载 Linux下安装R包fgsea报错及解决办法
libRblas.so: 无法打开共享对象文件: 没有那个文件或目录。安装这个包时费了一些时间,这里选择记录一下,希望能供后来者借鉴。把下面这句话加在~/.bashrc文件中,如果是自己的话,根据。上面是官方提供的安装方法,但是我按照这个方法安装时报错。文件夹下,于是我把它加在我的环境变量中。手动安装时也报错,报了下面错误。生信小猪,公众号:生信小猪。文件所在路径进行相应修改。
2024-05-25 21:19:15
568
转载 emcp软件包的安装以及构建OrgDB
这个软件包使用时需要argparser, tidyverse, formattable, AnnotationForge, seqinr, clusterProfiler这些依赖,上面安装过程只显示缺少argparser,把这个包安上。在使用这个软件时,会提示哪些包没安上,给安上就行。在安装的过程中,发现clusterProfiler这个包挺难装的,这个包也有很多依赖包,其中polyclip这个包就一直报下面的错误。依赖我感觉还是比较难装的,自动手动的方式都用了,花了一下午的时间,才把这个软件安装成功。
2024-05-25 21:12:08
229
转载 重测序BSA--ED方法关联分析
在本次脚本里,利用了两混池间基因型存在差异的SNP位点,统计各个碱基在不同混池中的深度,并计算每个位点ED值,为消除背景噪音,对原始ED值进行乘方处理,本项目取原始ED的5次方作为关联值以达到消除背景噪音的功能,然后采用。一样的数据(all.clean.snp.qtlseq.vcf.gz文件,解压一下),但是不用它的亲本数据,只用到两个子代极端混池的数据。ED算法不依赖于亲本的数据,也可以做F1子代的QTL定位,所以这种方式适用的群体类型是比较多的。,该位点的基因型就是纯和的且和参考基因组完全不一致。
2024-05-25 20:51:25
1328
1
转载 利用seqtk从基因组文件里面提取部分序列
一、根据序列名提取固定序列使用 seqtk subseq 命令从基因组文件里面提取部分序列比如从下面文件里提取chrA01,chrA04,chrA05染色体的序列可以使用下面命令在这个命令里,name.list文件是自己整理的解释命令:1) seqtk subseq: 使用Seqtk工具的子命令,用于提取序列。2) test.fa: 输入的FASTA格式文件,文件名为test.fa。3) name.list: 染色体名称文件,用于指定要提取的序列。4) tiqu-test.fa: 输出的FASTA格式
2024-05-25 20:30:10
4656
1
转载 python--将多个文件合并成一个文件,并在最后添加文件名列
综上所述,运行这个命令会在当前目录下查找所有以 gene.count.txt 结尾的文件,并将它们合并成一个文件。合并的结果将被写入到一个新的输出文件中,保留了输入文件的表头信息。这里利用Python编写的简单脚本,它能够快速合并指定文件夹下特定后缀的多个文件,并将合并结果保存为一个文件。这个脚本的功能是合并指定目录下特定后缀的多个文件,并将合并后的结果写入到一个输出文件中。2)合并文件:脚本遍历输入目录中符合指定后缀的文件,读取每个文件的内容,并将其合并到一个数据框中。原创 微信公众号生信小猪。
2024-05-24 22:39:18
582
1
转载 Python--将vcf格式文件转换成hapmap格式文件
VCF(Variant Call Format)是一种常用的基因组学数据格式,用于记录基因变异,包括单核苷酸多态性(SNP)和其他类型的基因突变。上一篇python--将多个文件合并成一个文件,并在最后添加文件名列下一篇根据基因在染色体的位置,把某一区间的所有基因提取出来。4)all.hapmap.txt:这是输出文件的路径和名称,表示转换后的HapMap格式数据将被写入这个文件。3)all.clean.vcf.gz:这是输入文件的路径和名称,表示一个压缩的VCF文件。脚本的全部内容。
2024-05-24 22:27:56
747
1
转载 根据基因在染色体的位置,把某一区间的所有基因提取出来
然后在遍历基因位置文件的过程中,如果找到了一个基因位置与当前区域匹配,我们将 found 标志设为 True,表示找到了匹配的基因。使用 matched_genes_path 和 unmatched_genes_path 分别创建匹配的基因文件 ("matched_genes.txt") 和未匹配的基因文件 ("no_matched_genes.txt")。这样,脚本便完成了将基因位置文件中位于区域文件指定区间内的基因提取出来,并保存在匹配的基因文件中,同时将未匹配的区域保存在未匹配的基因文件中。
2024-05-24 22:16:22
1019
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人