Odd_guy-优快云博客

原创基于vcf文件计算位点频谱SFS——easySFS

位点频谱（site frequency sperum）是使用遗传数据进行群体历史研究的基础数据，easySFS.py将可以将划分好群体的snp.vcf文件转换为SFS，该脚本输出可适用于和∂a∂i两个进行群体历史研究的主流方法。

2024-01-26 17:20:57 2422

原创快速排序的背后——深入理解时间复杂度

时间复杂度的概念衡量算法性能的重要标准，是算法设计和性能优化中的关键概念，对于编写高效、稳定和可扩展的程序至关重要。但是，初学者对于如何理解和应用时间复杂度则显得较为困难，本文以快速排序为例进一步加深对时间复杂度的理解。

2024-01-13 12:25:09 1011

原创列表解析与快速排序

排序是在对文本、数值等数据进行操作时常用的功能，本文介绍两种常用的排序方式，借此学习列表解析，并巩固递归算法。

2024-01-13 10:17:10 981

原创递归——简单粗暴的问题解决方式

递归（recursion）是一种在函数定义中使用函数自身的编程技术。在递归中，一个问题被分解为一个或多个更小的子问题，这些子问题与原始问题具有相同的结构。通过解决这些子问题，最终可以解决原始问题。

2024-01-11 17:18:52 490

原创基于经纬度信息提取气候因子图层数据

在进行生物地理学研究时，我们时常会涉及到提取特定位置的气候变量值，而ArgMap操作过于麻烦（主要是要付费）,而R包raster提供的功能完美解决了该问题。

2023-12-21 16:36:08 2020 1

原创基于GATK流程化进行SNP calling

在进行时，以群体基因组重测序数据为例，涉及到的个体基本都是上百个，而其中大多数流程均是重复的步骤。本文将基于GATK进行SNP calling的流程写入循环，便于批量分析。

2023-11-20 10:45:04 1059

原创基于GATK（Genome Analysis Toolkit）进行SNP calling

（Genome Analysis Toolkit）是进行DNA和RNAseq数据变异检测的常用工具，目前已成为变异检测的“金标准”。本文提供其与其他软件联合使用进行SNP calling的方法。

2023-11-20 09:58:44 1779

过滤参数：过滤掉次等位基因频率（minor allele frequency，MAF）低于0.05、哈达-温伯格平衡（Hardy– Weinberg equilibrium，HWE）对应的P值低于1e-10或杂合率（heterozygosity rates）偏差过大（± 3 SD）的位点：去除杂合率（heterozygosity rates）偏差过大（± 3 SD）的个体：假设，基于Plink生成的文件中会包含命令行输出，使用sed。

2023-11-15 21:01:14 1865 5

原创使用Maxent模型预测适生区

Maxent模型因其在潜在适生区预测中稳健的表现，时下已经成为使用最广泛的物种分布模型。biomod虽然可以通过集成模型的优势来弥补数据量较小的劣势，但是其在使用和运算时间上的优势远不如Maxent，虽然最新的biomod2已经修复了一些bug，不过在使用中仍是会遇到很多问题。

2023-11-15 20:46:41 2988

原创 GWAS全基因组关联分析实战——基于Plink转换vcf数据为二进制

vcf数据是保存变异信息的主要数据格式，plink是进行全基因组关联分析（GWAs）分析的常用工具包，同时提供一系列数据转换、裁剪和遗传统计量计算工具。本文以实际数据提供基因组关联分析方法。

2023-11-13 17:26:25 2822

原创 clermontyping安装使用

clermontyping是进行细菌分型的有效工具，本文解决依赖关系，提供基本调用方法。

2023-10-23 17:22:51 410

原创二分查找——算法基础

二分查找是在执行检索时高效简单的算法，但是其是否在任何情形下都适用呢？本将简单介绍二分法，并以此引入一些算法的基本概念。

2023-07-08 09:08:17 276

原创 Selective sweep与Genomic island

最近在阅读文献时遇到了==“genomic island”“selective sweep”==比较难理解。之前在一篇综述（）中我一度以为自己已经理解了此概念，但是将自己理解的概念运用到研究性文章中却发生了诸多不符……

2023-05-14 20:06:20 668

原创 GATK安装及java环境配置

gatk检测SNPs的工作大多数都是重复性的命令，众所周知，重测序数据少则几百个，多的参考人类基因组。将嵌套入循环脚本中进行工作无疑是最高效的做法（一开始为了方便，我是直接使用conda的安装方法，但是在脚本内反复切换环境常会出错（大多数都是我的操作不当），为了解决这一麻烦，不得不自己安装编译版……

2023-05-10 16:03:59 5888

原创主成分分析（PCA）原理及应用

PCA在进行统计学分析中往往面临着比较难以抉择的权衡。以农学研究为例，在实验设计时，考虑到研究结论更能反应作物真实状态下的农艺性状，研究人员会尽可能的纳入较多的指标，但是，随着而来的是铺天盖地的数据让人难以下手，（principal component analysis，PCA）便很好的解决了这一问题。在生物学相关（因为我主要从事生物学研究 ^ _^）领域，应用范围极广。光我接触过的便有数种：群体遗传学遗传成分的划分、代谢组学关键化合物的分离、群落学不同群落差异的评估、环境DNA组分的划分……

2023-04-29 22:01:07 1987

原创 SNPs检测——建立参考基因组索引

检测SNPs位点是利用的第一步，而基因组大小，以植物为例，多数都超过了500Mb，所以如何高效的利用参考基因组信息成为了生物信息学分析的一大问题。通过提取的关键信息，建立，以适应各工具包的工作需要是检测变异数据的第一步。

2023-04-26 23:51:55 2939 4

原创 siRNA vs. miRNA

（gene silencing）是生物体中重要的分子生物学过程，一般由（small interference RNA）和（micro RNA）介导。而两种RNA由于其复杂的作用机制和高效的沉默效率，在过去20年来都是分子生物学研究的热点。由于两者的作用机制比较类似，所以在概念上极易混淆。

2023-04-16 23:35:20 1243

原创记录自己在编译安装samtools时犯下的低级错误

condasamtools最近在进行基因组SNPs的检测工作，在进行完一个read group的检测工作后，为了了解操作是否正确，想使用查看去重复后的比对情况。因为之前吃过环境污染的亏，所以习惯性的使用conda工具进行软件的安装和对应软件工作环境的管理，但是部分软件包由于其特殊性，conda环境下可能某些功能无法实现，比如samtools……

2023-04-14 18:17:31 1391

原创安装conda搭建个人生物信息学平台（Linux-centOS）

conda的安装与使用

2023-03-10 15:41:43 1308

原创捕食者猎物模型

捕食者——猎物模型推导

2022-12-25 23:07:33 2126

原创方差分析（ANOVA）的基本原理及R实现（单因素）

方差分析基本原理和单因素方差分析R实现

2022-12-17 13:41:22 32963 3

原创 Lotka-Volterra竞争模型

Lotka-Volterra竞争模型

2022-12-16 14:49:14 5927

原创基因组特征评估——k-mer analysis

k-mer分析原理，及jellyfish的应用

2022-12-09 22:07:31 4203

原创 GenomeScope——jellyfish k-mer分析的下游分析

genomescope2.0的安装和应用

2022-12-09 22:02:56 3068

原创 SRA Toolkit简单使用

sra toolkit的安装、配置与基本功能的使用。

2022-12-05 19:35:52 3555

原创连锁不平衡及LD decay analysis

连锁不平衡

2022-11-18 11:12:25 3727 1

原创理论生态学导论

斐波那契数列

2022-11-02 23:39:53 285

原创 Allee效应与Leslic矩阵

Allee effects 和Leslic matrix

2022-10-27 23:34:10 748

原创种群大小的指数增长模式

种群的指数增长

2022-10-27 23:31:49 1432

原创分叉与逻辑斯蒂映射

逻辑斯蒂映射

2022-10-21 23:39:54 1128

原创种群大小与logistic方程

种群的指数增长和逻辑斯蒂方程

2022-10-19 21:31:22 611

原创 GWAs——全基因组关联分析三（关联分析）

GWAs——全基因组关联分析三（关联分析）

2022-10-09 10:27:55 1356

原创 GWAs——全基因组关联分析二（质控2）

GWAs——全基因组关联分析（质控2）

2022-10-02 00:38:43 958

原创 GWAs——全基因组关联分析（质控1）

本内容参考AndriesT. Marees等方法（DOI：10.1002/mpr.1608），使用的程序包为PLINK v1.9，二进制数据来自的模拟数据（祖先来自欧洲西北部的犹他州居民），包含三个二进制数据“.bed”，包含所有患者和健康对照的基因型信息（次文件内容为二进制数据，方便计算机读取，不便于肉眼查看）。“.fam”，包含研究个体的谱系关系（父、母本）、性别和表型信息等。“.bim”，包含SNPs的位置信息（Table 1）。Table 1：PLINK支持的二进制文件后缀内容信息.bed。

2022-09-25 15:35:49 2146

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

fastsimcoal28

jellyfish帮助文档

空空如也