
全基因组关联分析(GWAS)
文章平均质量分 56
关于全基因组关联分析的那些事、
Gossie
不恋虚名列夏花,洁身碧野布云霞。寒来舍子图宏志,飞雪冰冬暖万家。(--左河水)
展开
-
全基因组关联分析(GWAS)软件:Tassel5
Tassel 是比较经典的关联分析软件,但是因为运行速度没有优势,所以在重测序等数据量比较大的研究中不太常用。这是记录一下Tassel5 命令行进行关联分析的过程。参考:Tassel5:https://bitbucket.org/tasseladmin/tassel-5-source/wiki/HomeMLM:https://bitbucket.org/tasseladmin/tassel-5-source/wiki/UserManual/MLM/MLM1. 计算kinshiprun_pipeli原创 2021-03-12 20:35:23 · 5527 阅读 · 0 评论 -
全基因组关联分析(GWAS)软件:emmax
emmax 的优点是操作简单,运行速度非常快,几百万的SNP也可以半小时内跑完。1. 基因型格式# 转换成合适的格式nohup plink --vcf snp.vcf.gz --recode 12 --output-missing-genotype 0 --transpose --out snp --allow-extra-chr &注意:emmax 接受plink的长格式。基因型需要先 imputation,不能有缺失,且只识别双等位位点。snp ID (tped 文件第二列,不原创 2020-12-29 20:37:22 · 7471 阅读 · 1 评论 -
群体结构分析:用 phylip 构建进化树
用 phylip 构N-J树在 linux 系统,可以用 conda 安装 phylip 软件1. 将 SNP 文件转换为 phylip 格式用 tassel 的格式转换功能将 plink 格式转为 phylip 格式。另外有一个脚本可以将 vcf 格式转换为 phylip ,vcf2phylip.pyrun_pipeline.pl -Xmx50G -plink -ped snp.ped -map snp.map -export snp.phy -exportType Phylip_Inter原创 2020-11-29 19:43:48 · 16413 阅读 · 5 评论 -
全基因组关联分析(GWAS):LD Block
画LD block用的比较多的有两个软件,一个是haploview,另一个是R包LDheatmap。haploview数据导入传说plink可以直接转化出HV格式(参数 --recode HV),但是用的时候提示没有case/control表型,不知如何解决。因此自己将plink格式转换为Linkage formate格式Linkage formate格式有两个文件:ped文件和info文件ped文件与plink的ped非常相似:第一列:家系。没有家系可以指定其它唯一ID第二列:个体。第三原创 2020-11-12 09:40:48 · 10931 阅读 · 0 评论 -
全基因组关联分析(GWAS)软件:gemma
版本:Version 0.94.1输入文件GEMMA 需要四个主要的输入文件,包括基因型、表型、相关矩阵和协变量(可选)。基因型和表型文件可以是两种格式,都是 PLINK binary ped 格式或者都 BIMBAM 格式。不可混用。genotype 文件接受比较多的输入类型,这是用的 plink 格式:GEMMA 识别基因型和表型的 PLINK binary ped 文件格式.该格式需要三个文件:*.bed, *.bim, *.bam,所有文件都有相同的前缀。用户可以用 PLINK 将标原创 2020-11-02 21:29:20 · 10448 阅读 · 6 评论 -
全基因组关联分析(GWAS)软件:MAGMA
MAGMA软件被设计用于基于基因的(gene-based)或基因集的(gene-set-based)的关联分析,可以直接找到与目的性状相关的功能基因或功能模块(如基因调控通路等),也有利于发现由多个微效 SNP 关联的基因。MAGMA 的输入数据可以是原始的基因型数据,也可以是其它关联分析软件的结果(如emmax、gemma等)。本文用 emmax 的关联分析结果作为输入文件,因为 MAGMA 虽然可以用原始数据进行单位点的关联分析,但是它的运行速度没有 emmax 快。1. SNP 注释MAGM原创 2020-10-30 10:20:50 · 6357 阅读 · 0 评论 -
全基因组关联分析(GWAS)软件:mrMLM
mrMLM 官网介绍,它的优势是先用一个比 Bonferroni 略宽松的标准筛选SNP,然后用多位点遗传模型分析,可以找到更多的与目标性状关联的SNP。不得不吐槽一下,使用体验太差,输入文件不是常用格式(vcf、ped等),也没有解释说明(说明书里的信息基本等于零),逼的我只好看程序代码如何读取数据的。。。;后来发现,R包的文件夹里有个原始数据的示例文件,终于有了点头绪。。。ps:后来终于在bioRxiv上的关于mrMLM 4.0的文章的附件中找到一份比较详细的说明.前言输入文件有三种格式,num原创 2020-10-28 14:24:59 · 5122 阅读 · 0 评论