自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

邓飞----育种数据分析之放飞自我

育种数据分析 遗传参数评估 生物统计 全基因组选择

  • 博客(535)
  • 资源 (1)
  • 问答 (1)
  • 收藏
  • 关注

原创 GWAS数据介绍之data2~9

多基因评分PRSice软件和测试数据,包括Windows系统和Linux系统。主要是GLM模型和LMM模型进行QQ图和曼哈顿图可视化的数据和代码。主要是连续性状,用GEMMA进行GWAS分析所用的数据和代码。主要是连续性状,使用plink进行GWAS分析的数据。bedtools基于snp和gff进行注释的代码。使用R语言的 gapit 包,进行GWAS分析。主要是多环境数据中,如何计算BLUE值。单倍型分析软件Haploview介绍。需要的小伙伴快来领取配套数据吧!

2025-01-09 11:33:57 195

原创 GWAS数据介绍之data1

其中1_Main_script_QC_GWAS.txt里面包括所有运行的代码,基因型文件是plink格式的二进制文件, .R 是几个用于检测结果以及可视化的R脚本,我们后面会依次讲解这些代码。原来的数据地址: https://github.com/MareesAT/GWA_tutorial/这个数据,来源于github的数据,修改了里面一些bug,重新整理了一下。主要是根据一些常用的基因型数据质控,包括maf、缺失、杂合度、哈温平衡等。这部分,主要是群体结构分析,包括MDS分析。

2025-01-08 12:51:23 233

原创 GWAS数据和软件下载

数据和代码目前在不断的更新,最新的教程可以加我微信(ID:yijiaobani),备注:姓名+单位+gwas,我通过后手动发送最新版的pdf和数据代码。然后根据pdf教程,结合配套的数据和代码,跑通代码,修改代码,理解代码,进而理解流程,掌握流程。另外,我把每个章节都录制成视频,对于想要视频学习的同学,可以选择视频链接: http://pc.df.niu6666.top/#/courses/detail?下载地址: https://cran.r-project.org/bin/windows/base/

2025-01-03 10:11:50 458

原创 GWAS常用分析模型

这里固定因子是SNP,也 可以考虑其它协变量(比如性别,PCA,群体结构等等),如果有GWAS相关问题,也可以私信加入我的知识星球,里面会对相关问题进行解答。这里,SNP作为固定因子,可以考虑其它协变量(比如性别,PCA,群体结构等等)​球内有很多初学者遇到的问题以及解决方案,还会分享很多资料和笔记代码。随机因子:亲缘关系矩阵(K矩阵或者A矩阵)这里固定因子和前面的GLM一样。一、一般线性模型 GLM 介绍。二、线性混合模型 MLM 介绍。

2025-01-02 10:08:17 246

原创 GWAS如何高效学习

我一直推崇学些GWAS分析, 要先做后学(这里推荐一个两天的GWAS录播课程,需要可以私信) ,在分析的过程中哪里不会学哪里,这样。GWAS全称“全基因组关联分析”,使用统计模型找到与性状关联的位点,用于分子标。才能入门,才能进阶,才能掌握。而学习GWAS,最大的难点是如何开始,所以一个。从某种程度上,学习GWAS的过程,就是学习软件的过程,软。常用的GWAS分析软件,这里都会有介绍,主。分类性状(阈值性状,质量性状):比如抗病性,颜色等等。连续性状(数量性状):比如株高,体重,产量等等。

2024-12-31 09:47:42 273

原创 GWAS学习必备知识点罗列

1,配套全部环境的Linux镜像虚拟机,所有程序代码都可以在Linux中完成,Linux已经配置好常见的GWAS软件,比如plink、gcta、gemma、gapit、admixture、vcftools、bcftools、PopLDdecay、conda、git、java、beagle、rstudio-server等软件。2,内容包括常见的GWAS模型,比如GLM、Logistic、MLM,包括R语言的操作和GWAS软件(plink、gcta、gemma、gapit)的操作。

2024-12-30 11:24:56 224

原创 曼哈顿图如何指定不同染色体不同的颜色

我的回答:GAPIT大概率没有参数设置,但是可以把结果文件用CMplot进行可视化,这个肯定是没问题的,我回头写篇博客。PS,如果有20条染色体,每个染色体一个颜色,如何设置:​​​​​​​。所以,结论是什么,就是设置12条染色体的颜色,赋值给col参数即可。CMplot包中的col参数,可以定义不同的颜色。Rstudio中不同颜色,直接在编程界面显示出来了,666。可以看出,十条染色体一组颜色,然后循环。

2024-12-27 15:35:52 294

原创 GWAS分析中曼哈顿图如何添加基因信息

我充分体验到从小白到高手的过程,要是能当小白,我肯定不愿意看说明文档的。但是网上真的找不到,ChatGPT也是错误百出,于是,我就翻开说明文档,一下就搞定了,很快的。既然有需求,那就研究一下吧,毕竟,解决问题就意味着能力提升,做困难的事情,能力提升得更快,像我这种凡事依赖ChatGPT的人,如果ChatGPT能解决,我是肯定不会看说明文档的。大家好,我是邓飞,虽然我知道GWAS分析后一定是要有曼哈顿图的,没有曼哈顿图的GWAS没有灵魂,但是,谁能想到,需要在曼哈顿图上添加上基因,怎么不在上面画蒙娜丽莎呢?

2024-12-06 09:13:11 550

原创 GWAS分析先做后学

培训中环境配置是一大难题,我们使用虚拟机安装Linux系统,里面配置完整的软件,包括:R语言,Python,GAPIT,GCTA,GEMMA,admixture,LDblockshow,PopLDdecay,Haploview,Beagle,bedtools,vcftools,PRsice,TwoSampleMR等软件包,还有网页版的Rstudio软件,应有尽有,一个虚拟机的Linux系统,解决常用生信分析环境。所以,我推荐先学会做GWAS,在分析的过程中哪里不会学哪里,这样才能入门,才能进阶,才能掌握。

2024-12-05 15:54:14 697

原创 第四章:GWAS中的统计模型

4,ECMLLM,CMLM基础上开发,ECMLM 方法建立在带有附加参数的 CMLM 之上,该方法研究了测量不同基因型组之间亲缘关系的替代方案,作为成对个体亲缘关系的平均值。3,CMLM:压缩MLM,为了提高QTL检测的统计能力并减少MLM的计算时间,开发了两种MLM相关模型,即压缩MLM(CMLM)和富集CMLM(ECMLM)模型。2,MLM模型:在GLM的基础山,考虑了亲缘关系,这个问题导致了基于混合线性模型 (MLM) 的新 GWAS 方法的开发,该模型在分析中同时纳入了种群结构和亲属关系。

2024-10-30 12:20:36 1200

原创 GWAS分析中显著位点如何注释基因:excel???

大家好,我是邓飞。今天星球的小伙伴问了一个问题:我现在在做GWAS分析,现在已经找到性状关联的SNP位点,下一步我如何根据position 找到基因呢?关于基因注释,之前写过一些博客,可以用到的软件有:ANNOVAR、Bedtools,今天回答了这个问题,感觉excel也可以做基因注释了。下面,对我的回答进行进一步的阐述。

2024-09-30 17:51:45 1654

原创 GWAS分析中PCA分层不明显怎么办?你秀什么优越感?

但是,因为样本量很小,勉强将这些群体放在一起,但是这些分层的群体,分层之间的效应一定要去除,这和试验设计中设置区组,然后分解出区组效应是一样一样的,都是为了降低外在因素的影响,降低系统性误差!如果你的群体分层严重,但是你没有考虑PCA,没有将PCA放到模型中,那就惨啦,模型结果不靠谱,你看到的显著性位点大都是假阳性,都是由于群体分层导致的,考虑PCA效果会好一点。讲真,GWAS分析中,群体结构分层明显的群体,真不如没有分层的群体,毕竟,好好的群体本来就在一起,不是挺好吗。分得很开,好像才算正常的结果!

2024-09-29 12:38:44 517

原创 孟德尔随机化分析和GWAS分析有什么区别?

例如,如果某个SNP与胆固醇水平相关,同时也与心脏病相关,MR可以利用这个SNP来推断胆固醇对心脏病的因果影响,而不会受到那些混杂因素的影响。对于GWAS分析,从原理到实操,我是比较熟悉的,还编写了一本GWAS分析教程V6版,在学习孟德尔随机化分析的过程中,我发现GWAS的结果是MR的输入,所以关系应该是现有GWAS分析,再有MR分析。GWAS: GWAS的主要目标是识别关联,但这些关联可能受到混杂因素(例如环境因素、生活方式等)的影响,因此仅靠GWAS的结果很难直接推断因果关系。

2024-09-14 12:30:56 986

原创 从一篇孟德尔随机化文章看MR常见结果形式

上面结果中,左边上方是每个SNP的名称,每个SNP一行,x坐标是效应值的区间,每一行SNP的黑点是效应值的大小,线段的长度是95%的置信区间,如果线段在0虚线的两端说明不显著,如果全部在左边或者全部在右边,说明达到显著水平。定义:在孟德尔随机化(Mendelian Randomization, MR)研究中,两样本MR结果散点图是一种重要的可视化工具,用于展示遗传工具变量(如SNP)与暴露和结果之间的关系。- Y轴:通常表示相同工具变量对结果的效应(例如,SNP与特定疾病或结果的关联)。

2024-09-12 13:19:48 3152

原创 孟德尔随机化的术语理解

工具变量(Instrumental Variable)是指那些与特定暴露因素(如生活方式或生物标志物)相关的遗传变异(通常是单核苷酸多态性,SNP),这些工具变量用于评估暴露因素与健康结果(如疾病发生或死亡率)之间的因果关系。孟德尔随机化,遵循“亲代等位基因随机分配给子代”的孟德尔遗传定律,选择合适的“基因变异”作为工具变量,指代无法测量的待研究暴露因素,通过测量遗传变异与暴露因素、遗传变异与疾病结局之间的关联,进而推断暴露因素与疾病结局之间的关联。猛地一看,看不懂,但是字认识,仔细一看,还不如猛地一看。

2024-09-09 12:54:01 842

原创 第四章:GWAS中的分析模型介绍和注意要点

多位点GWAS模型代表的方法多位点混合线性模型(MLMM),FarmCPU,BLINK,BOLT-LMM模型,比较常用的事FarmCPU和BLINK两种方法,特别是样本量少时,有时候比MLM效果更好。1,单位点GWAS,就是单点扫描进行统计计算显著性,比如我们plink中的--linear,GLM模型,还有混合线性模型(MLM),比如GAPIT和GCTA,还有MLM改良模型比如CMLM、ECMLM、EMMA、FaST-LMM、Fast-LMM-Select、SUPER等。

2024-09-08 16:39:16 1443

原创 第三章:GWAS基因分型平台介绍

最近在用obsidian整理自己的笔记,发现读书的时候,如果有些知识之前有所了解,就把他连接一下,发现关联到一起之后,理解更清晰了,下面两个是阅读的时候两个关联笔记,红色的问题,蓝色的是我的理解。2,如果还有很多位点,可以进一步删除,比如去掉LD大于0.5的位点,这时候找到的显著性位点,可以提取附近上下游的位点,计算单倍型,然后依据单倍型进行重新分析,也是一种降低工作量的方法。有些染色体保守,就需要较少的标记,一般是看整体的LD水平,大致评估一个最小的snp个数。

2024-09-08 14:21:34 585

原创 第二章:GWAS表型数据的准备和管理

3,数据集的组织和存储方式应便于重新分析。5,使用考虑空间趋势的混合模型增加了显着QTL的数量,这可能是由于性状的狭义遗传力和GWAS的统计能力增加的结果。上面是数据是否清洗,检测的结果,可以看到,第10条染色体在数据清洗后,没有了显著性位点,这些位点可能是假阳性。3,另外,建议可以识别异常值,但是不能删除,异常值也是有价值的信息,可以分别测试不同的结果。2,表型数据,使用原始数据,blup值,平均值,还是blue值对结果的影响。3,异常值不清理,会造成假阳性,特别是频率比较低的位点,对异常值更敏感。

2024-09-08 11:13:35 1667

原创 《Genome-Wide Association Studies》第一章:GWAS分析的主要步骤和关键要点

这几天看过一遍了,觉得干货很多,有很多知识点的连通,弄懂了之前是是而非的概念,收获很大。我觉得阅读一本书,如果把刚读懂的输出写篇文章,或者把没有搞懂的内容写出来交流一下,是掌握知识的快捷方法。大家好,我是邓飞,之前推荐过这本《Genome-Wide Association Studies》的书籍,2022年出版的,内容比较前沿。QTL都是人工群体,有高度的LD衰减,所以需要比较少的标记就可以。SV也可以变为主等位纯合、杂合、次等位纯合的格式,编码为0-1-2的格式,用GAPIT分析完全没问题。

2024-09-08 10:10:42 578

原创 IBS和IBD的区别和计算方法介绍

系谱计算的是IBD,同胞,半同胞,表兄弟,都是有亲戚关系的,他们性格,长相相似,是有依据的,因为他们由IBD计算的血缘相似性较高。根据SNP或者SSR计算的是IBS,虽然两个人没有亲戚,但依旧有很高的相似性(比如长相,性格,体型,爱好等),这说明两者的IBS计算的相似性较高。,怎么推断呢,比如0.25是半同胞,0.5是全同胞或者亲子关系,写到这里,我突然想到,人类的亲疏是根据IBD划分的,亲子关系和同父母的兄弟姐妹的IBD都是0.5,应该是人类中最亲的关系了。同样的道理,如果是SNP数据计算的G矩阵(

2024-09-08 09:24:40 973

原创 孟德尔随机化R包:TwoSampleMR和MR-PRESSO安装

最新的版本为0.6.4(2024-06-12)。该包没有在CRAN中,在github中,可以通过下面命令安装。如果让选择是否更新,可以选择1,全部更新。后面介绍一下这两个包的使用方法。

2024-06-12 07:00:57 8388 3

原创 R语言迅速计算多基因评分(PRS)

GWAS分析结果中,有每个SNP的beta值、se值、P值,因为GWAS分析中将SNP变为0-1-2编码,所以这些显著的SNP的beta值,就可以用于预测。个体3的多基因评分为:0.6 + 0.4 + -0.1 = 0.9。个体2的多基因评分为:0.3 + 0 + -0.1 = 0.2。不会安装使用PRSice-2软件就太不讲究了。多基因风险预测模型2–相关概念和软件。多基因风险预测模型1–先立Flag。那么个体1的多基因评分为:0。

2024-03-21 21:24:48 1519

原创 关于遗传力常见的误解

正确的解释:遗传力为0.4,就意味着表型变异中有40%是由基因型变异决定的。

2024-03-11 21:04:32 1794

原创 如何引用R语言版本以及R包版本

在分析数据时,我们需要引用R语言的特定版本,以及使用R包的版本,其实R语言中有代码可以调用,下面介绍一下。

2024-01-16 19:57:51 1672

原创 GWAS软件:GEMMA的安装和使用教程

GCTA和GEMMA是GWAS分析中应用最广泛的两款软件,GCTA可以在​Windows电脑下运行,而GEMMA软件只有Linux和Mac系统,这里介绍一下如何在Linux系统中安装GEMMA软件。​。

2023-11-01 20:08:34 6023 1

原创 GWAS软件包:GAPIT3它来啦

GAPIT是一款非常老的而且非常流行的软件包,傻瓜式操作,一键出图出结果,一篮子的解决方案,是我最经常使用的GWAS分析软件包。最近,GAPIT现在的版本是GAPIT3,速度比第二版有较大的提升:更大的变化,终于有GAPIT这个软件包了,可以用library载入进去,而且安装方式可以用github安装,更符合R-style。

2023-10-25 21:40:55 1507 3

原创 plink分析100个性状的批量gwas分析

大家好,我是邓飞。GWAS分析时,3~5个性状是正常操作,要分析100个性状呢,手动修改参数,工作量是够了,但是程序员的修养体现在哪里了???如果还是按照每个性状一个文件夹,每个文件夹中一个脚本,不断地修改脚本,一点也不高端,所以,遇到这种情况,批量处理就派上用场了。之所以之前一直不用,因为10个性状一下,没有必要,费心思想还不如直接动手操作了,但是100个性状真的吓到我了,不满足才能有进步。就看了一下参数说明,然后五分钟搞定了。

2023-10-18 21:01:39 873

原创 vcf 文件如何修改染色体修改样本名称提取样本

大家好,我是邓飞。用到的软件是bcftools,用到的系统是Linux。

2023-10-10 22:25:16 1908 1

原创 围棋与育种

最近因为娃子报名了围棋课,我本着交一次课学两个人的态度,入门围棋,买了些书,听了些课,有所得。学了两个多月,现在6级水平,了解了基本的攻杀技巧,会判断输赢。下面截图是今天的一盘棋,执黑胜利27子。围棋作为最后被计算机攻克的棋牌类游戏,它的复杂度相对于其它游戏遥遥领先,之前没有接触过,一直感觉到高深莫测,也没有机会学习,这次入门围棋让我想到了很多,写篇博客介绍一下吧。

2023-08-27 22:54:47 643

原创 ldsc python程序安装以及测试

下一章节介绍ldsc的运行教程。貌似python没有配置好。这个bug后面博客更新。

2023-06-19 00:39:19 2648 3

原创 snpEFF和bedtools基因注释有何异同?

大家好,我是邓飞,现在写博客越来越繁琐了,每个平台对图片都有自己的规则,不能通用,各种找不到图片,本着充值是我变强的原则,买了Markdown Nice的VIP(https://product.mdnice.com/),据说实现了一键发布多个平台,而且有自己的图库,今天先水一篇,试试效果。snpEFF,输入文件是vcf格式,另外,他需要基因组数据和gff创建数据库(通用的物种官网有现成的,但是推荐自定义构建,不容易出错。snpEFF,主要是下机数据,vcf数据,运算速度快,给出每个SNP的信息。

2023-05-31 21:55:38 883 1

原创 liftOver 不同版本基因组文件相互转化

大家好,我是邓飞。前一段时间有小伙伴在星球提问:想将不同版本的SNP数据合并,不想重新call snp,想把绵羊的V2和V4版本的数据合并,具体来说,是V2转为V4然后与V4合并。我建议用liftOver软件进行处理,并许诺写篇博客介绍一下。还有小伙伴想把1.2的参考基因组,变为3.1的,问我如何处理,我还是建议用liftOver,在线网站也可以解决,但是本地编程更快一些。

2023-05-30 22:12:47 2510 1

原创 tidyverse中filter行筛选时缺失值存在的一个坑

大家好,我是邓飞,好久没有更新博客了,是因为好久没有进步了。之前我认为鲁迅说的对,他在《野草》中写道:“当我沉默着的时候,我觉得充实;我将开口,同时感到空虚”。现在确切的情况是,当我停止更新时,我感到充实和无压力,然后越来越不想更新,最后发现没有什么可写的,一旦我想写点东西,就是特别空虚,腹中空空但是又开始大腹便便,好像肚子里没东西,但是都是肉,成年人的忧伤……

2023-05-29 20:51:42 990

原创 GWAS分析中的GO和KEGG富集分析

上一次,我们介绍如何根据显著性snp,使用bedtools根据上下游距离,根据gff文件注释基因。这一次,介绍一下如何根据注释的基因,进行富集分析,主要是看一下GWAS定位的基因有没有某一个趋势,也算是一种验证的方法。比如籽粒大小找到的30个候选基因,如果都与籽粒发育相关的生化途径一致,那就说明找到的都是相关的基因。

2023-05-20 17:55:24 1713

原创 win11 的winrar软件选项合并了如何展开

集成,去掉:层叠的关联菜单,然后点击确定。不习惯,想变为之前的风格。打开winrar软件。

2023-05-06 21:27:33 647

原创 如何使用new bing画图--ChatGPT4.0--2023-05-05

默认是更平衡(蓝色),如果想画画,需要设置为:更有创造力(红色的颜色),就可以了!

2023-05-05 09:13:50 2162

原创 多个plink文件合并方法

大家好,我是邓飞,这里总结一下多个plink文件合并的问题。所以,这里也分为两种方法总结一下。

2023-03-21 20:34:53 4086 5

原创 win11更新 中间多了个搜索 如何去掉

今天,windows11升级后,桌面下面的地方,出现了一个搜索框,很难看:下面介绍一下如何去掉。

2023-03-16 20:48:13 1430

原创 PRSice-2在windows系统安装教程

二进制文件,直接运行即可。核心计算文件,计算PRS。

2023-03-13 22:05:11 1068 2

原创 new bing的chatGPT如何解析英文论文pdf

您好,这是必应。这篇文章的主要内容是利用单步基因组最佳线性无偏预测(ssGBLUP)方法来提高巨型淡水虾(Macrobrachium rosenbergii)体重的遗传评估效率。文章使用了410个基因分型的亲本和83,480个单核苷酸多态性(SNP)位点来估计体重的方差成分和遗传参数,并通过五折交叉验证(CV)来计算遗传值(EBV)和基因组遗传值(GEBV)的预测准确度。

2023-03-12 21:43:50 20644 3

DMU-遗传评估软件cookbook

遗传评估软件DMU的cookbook, 里面包括代码和示例运算.

2019-04-08

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除