最近抽空研读了一篇探讨高血压和肾功能关系的文献,记录下来分享给大家,主要也是想看看孟德尔随机化的统计分析结果在论文中是如何呈现的,之后我会给大家写写孟德尔随机化的统计分析在R语言中的做法,希望可以帮助到大家。
文章的题目是A bidirectional Mendelian randomization study supports causal effects of kidney function on blood pressure,这篇文章用到的统计技巧叫做Two-sample MR----两样本孟德尔随机分析。我还查阅了别的孟德尔随机化的文献,这个Two-sample MR的分析其实是非常常用的。
Two-sample MR分析的一般步骤
第一步是找工具变量,我们要的是基因作为工具变量这些个基因都是从别人的研究中挑出来的,所有的基因研究有个专门的库叫做genome wide association studies (GWAS)。我们需要做的就是从这个库中挑出来我们自己需要的和我们暴露相关的基因变量SNPs。这是第一步。
第二步就是估计我们的工具变量对结局的作用,工具变量对结局的作用也是从所有的研究中估计出来的整体效应,这样可以拒绝单个研究的偏倚。
第三步就是合并多个SNP的效应量,这个效应量是我们得到暴露和结局因果效应的前提。
第四步就是用合并后的数据进行孟德尔随机化分析和相应的敏感性分析。
做分析的整个流程就在下面的图中啦:
总体来看就是在孟德尔随机化研究中我们的工具变量可以不需要你收集,工具变量的效应也不需要你计算,这些都只需要你在GWAS挖掘合并就行。就是说做孟德尔随机化研究是不需要你有原始数据的。
我们把上面的步骤具体在刚刚提到的文献中走一遍:
这篇文献是要研究高血压和肾功能的因果方向的,就是到底是高血压导致肾功能下降,还是肾功能下降导致的高血压,具体地就是研究eGFRcr和BP的因果方向。
首先作者从别人的基因研究中找自己研究变量的工具变量,别人的研究的情况如下表:注意下表是包含一个联盟的很多个研究的(肾功能的工具变量是从CKDGen Consortium找来的,血压的工具变量是UKB-ICBP中找来的),是需要进行meta整合的:
通过meta分析作者就筛选出了两个变量可能的工具变量,因为每个变量的工具变量其实是比较多的,为了保证同一个变量工具变量间的独立性,作者有做一个叫LD clumping的操作:
To ensure independence among genetic instruments, we applied LD clumping60 with a clumping window of 10 MB and an r2 cutoff of 0.001 (default of the ld_clumpfunction)
作者有把筛出来的变量的暴露和结局的工具变量展示在文献中(但是放在补充材料中的