- 博客(40)
- 收藏
- 关注
原创 基于vcf文件计算位点频谱SFS——easySFS
位点频谱(site frequency sperum)是使用遗传数据进行群体历史研究的基础数据,easySFS.py将可以将划分好群体的snp.vcf文件转换为SFS,该脚本输出可适用于和∂a∂i两个进行群体历史研究的主流方法。
2024-01-26 17:20:57
1733
原创 快速排序的背后——深入理解时间复杂度
时间复杂度的概念衡量算法性能的重要标准,是算法设计和性能优化中的关键概念,对于编写高效、稳定和可扩展的程序至关重要。但是,初学者对于如何理解和应用时间复杂度则显得较为困难,本文以快速排序为例进一步加深对时间复杂度的理解。
2024-01-13 12:25:09
935
原创 递归——简单粗暴的问题解决方式
递归(recursion)是一种在函数定义中使用函数自身的编程技术。在递归中,一个问题被分解为一个或多个更小的子问题,这些子问题与原始问题具有相同的结构。通过解决这些子问题,最终可以解决原始问题。
2024-01-11 17:18:52
424
原创 基于经纬度信息提取气候因子图层数据
在进行生物地理学研究时,我们时常会涉及到提取特定位置的气候变量值,而ArgMap操作过于麻烦(主要是要付费),而R包raster提供的功能完美解决了该问题。
2023-12-21 16:36:08
1515
原创 基于GATK流程化进行SNP calling
在进行时,以群体基因组重测序数据为例,涉及到的个体基本都是上百个,而其中大多数流程均是重复的步骤。本文将基于GATK进行SNP calling的流程写入循环,便于批量分析。
2023-11-20 10:45:04
683
原创 基于GATK(Genome Analysis Toolkit)进行SNP calling
(Genome Analysis Toolkit)是进行DNA和RNAseq数据变异检测的常用工具,目前已成为变异检测的“金标准”。本文提供其与其他软件联合使用进行SNP calling的方法。
2023-11-20 09:58:44
1073
原创 使用pixy计算群体遗传学统计量
过滤参数:过滤掉次等位基因频率(minor allele frequency,MAF)低于0.05、哈达-温伯格平衡(Hardy– Weinberg equilibrium,HWE)对应的P值低于1e-10或杂合率(heterozygosity rates)偏差过大(± 3 SD)的位点:去除杂合率(heterozygosity rates)偏差过大(± 3 SD)的个体:假设,基于Plink生成的文件中会包含命令行输出,使用sed。
2023-11-15 21:01:14
1366
4
原创 使用Maxent模型预测适生区
Maxent模型因其在潜在适生区预测中稳健的表现,时下已经成为使用最广泛的物种分布模型。biomod虽然可以通过集成模型的优势来弥补数据量较小的劣势,但是其在使用和运算时间上的优势远不如Maxent,虽然最新的biomod2已经修复了一些bug,不过在使用中仍是会遇到很多问题。
2023-11-15 20:46:41
2128
原创 GWAS全基因组关联分析实战——基于Plink转换vcf数据为二进制
vcf数据是保存变异信息的主要数据格式,plink是进行全基因组关联分析(GWAs)分析的常用工具包,同时提供一系列数据转换、裁剪和遗传统计量计算工具。本文以实际数据提供基因组关联分析方法。
2023-11-13 17:26:25
2269
原创 Selective sweep与Genomic island
最近在阅读文献时遇到了==“genomic island”“selective sweep”==比较难理解。之前在一篇综述()中我一度以为自己已经理解了此概念,但是将自己理解的概念运用到研究性文章中却发生了诸多不符……
2023-05-14 20:06:20
491
原创 GATK安装及java环境配置
gatk检测SNPs的工作大多数都是重复性的命令,众所周知,重测序数据少则几百个,多的参考人类基因组。将嵌套入循环脚本中进行工作无疑是最高效的做法(一开始为了方便,我是直接使用conda的安装方法,但是在脚本内反复切换环境常会出错(大多数都是我的操作不当),为了解决这一麻烦,不得不自己安装编译版……
2023-05-10 16:03:59
4960
原创 主成分分析(PCA)原理及应用
PCA在进行统计学分析中往往面临着比较难以抉择的权衡。以农学研究为例,在实验设计时,考虑到研究结论更能反应作物真实状态下的农艺性状,研究人员会尽可能的纳入较多的指标,但是,随着而来的是铺天盖地的数据让人难以下手,(principal component analysis,PCA)便很好的解决了这一问题。在生物学相关(因为我主要从事生物学研究 ^ _^)领域,应用范围极广。光我接触过的便有数种:群体遗传学遗传成分的划分、代谢组学关键化合物的分离、群落学不同群落差异的评估、环境DNA组分的划分……
2023-04-29 22:01:07
1614
原创 SNPs检测——建立参考基因组索引
检测SNPs位点是利用的第一步,而基因组大小,以植物为例,多数都超过了500Mb,所以如何高效的利用参考基因组信息成为了生物信息学分析的一大问题。通过提取的关键信息,建立,以适应各工具包的工作需要是检测变异数据的第一步。
2023-04-26 23:51:55
2333
4
原创 siRNA vs. miRNA
(gene silencing)是生物体中重要的分子生物学过程,一般由(small interference RNA)和(micro RNA)介导。而两种RNA由于其复杂的作用机制和高效的沉默效率,在过去20年来都是分子生物学研究的热点。由于两者的作用机制比较类似,所以在概念上极易混淆。
2023-04-16 23:35:20
828
原创 记录自己在编译安装samtools时犯下的低级错误
condasamtools最近在进行基因组SNPs的检测工作,在进行完一个read group的检测工作后,为了了解操作是否正确,想使用查看去重复后的比对情况。因为之前吃过环境污染的亏,所以习惯性的使用conda工具进行软件的安装和对应软件工作环境的管理,但是部分软件包由于其特殊性,conda环境下可能某些功能无法实现,比如samtools……
2023-04-14 18:17:31
1089
原创 GWAs——全基因组关联分析(质控1)
本内容参考AndriesT. Marees等方法(DOI:10.1002/mpr.1608),使用的程序包为PLINK v1.9,二进制数据来自的模拟数据(祖先来自欧洲西北部的犹他州居民),包含三个二进制数据“.bed”,包含所有患者和健康对照的基因型信息(次文件内容为二进制数据,方便计算机读取,不便于肉眼查看)。“.fam”,包含研究个体的谱系关系(父、母本)、性别和表型信息等。“.bim”,包含SNPs的位置信息(Table 1)。Table 1:PLINK支持的二进制文件后缀内容信息.bed。
2022-09-25 15:35:49
1543
原创 使用biomod2生成虚拟负样本(pseudo-absences)
biomod2包示例代码运行,并讲解四种虚拟负样本(pseudo-absences)生成方法的原理
2022-06-27 22:23:26
1670
5
jellyfish帮助文档
2022-12-06
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人