前言
我的理解是没有达到哈温平衡平衡的SNP就说明该SNP在这个群体中没有达到遗传平衡,不具有代表性,不能用于关联分析。
文章中对于哈温平衡检验的建议筛选阈值是不一样的,对于二元性状(病例-对照)中病例组的P值为P<1e-10、对照中P<1e-6进行筛选(本文中统一设置为1e-6)。对于数量性状则统一为P<1e-6。
plink --bfile HapMap_3_r3_8 --hardy
wc -l plink.hwe
less plink.hwe
第一列染色体号,第二列SNP名称,第三列为TEST(这一列是在病例/对照性状中才会出现,我的理解是一个统计即这个SNP在病例和对照中都存在分型还是只存在于病例或者对照),第四列和第五列等位基因,第六列为基因型分布,第七列为观测杂合度频率,第八列为期望杂合度频率,第九列为HWE检验的P值
我们先回看一下.ped文件中给的表型值是什么
可以看到第六列的数据包含三种数据类型,1,2,-9。1和2分别对应病例和对照,-9表示表型缺失。
我们使用两个步骤,首先我们对控制使用一个严格的HWE阈值,然后对病例数据使用一个不那么严格的阈值。
plink --bfile HapMap_3_r3_8 --hwe 1e-6 --make-bed --out HapMap_hwe_filter_step1
第二个步骤只针对病例,因为在对照组中,所有HWE p值< HWE 1e-6的snp都已被删除
plink --bfile HapMap_hwe_filter_step1 --hwe 1e-10 --hwe-all --make-bed --out HapMap_3_r3_9
使用R语言对哈温平衡检验结果可视化