GWAS之BOOST讲解

GWAS(全基因组关联研究)通过分析SNP与疾病的关系寻找遗传标记。本文深入讲解GWAS的基本概念、常用处理方法如T检验、卡方检验和GLM,以及上位性计算。特别讨论了BOOST算法在成对交互搜索中的应用,涉及列联表创建、统计测试和逻辑回归模型,阐述了BOOST代码实现的关键步骤。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

GWAS概念

SNP,single nucleotide polymorphism,单核苷酸多态性主要是指在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性(基因A突变为a)。

每个样本,病例或对照,在一组特定的标记位置进行基因分型,称为单核苷酸多态性(SNPs)。

GWAS通俗的说:

  1. 针对一种疾病;
  2. 征召数百甚至上千个患了这种疾病的人与正常的人;
  3. 用SNP芯片测每个样本的全基因组范围内SNP的基因型;
  4. 搜集、整理、去噪这些数据,整理成比较标准的格式;
  5. 利用计算机软件分析这些数据,从中搜集与这种疾病相关的SNP;
  6. 在生物上进行一些验证;

基因间的相互作用(上位性)在导致复杂疾病的遗传变异中起着重要作用。在全基因组关联研究(GWAS)中,对病例组和对照组进行基因分型,并对其结果进行分析,以找到可能影响表型的遗传标记,即个体是否具有某种疾病的易感性。

基本思想是假设检验

零假设(H0,null hypothesis): 即原假设,指进行统计检验时预先建立的假设,一般是希望证明其错误的假设。GWAS中的H0是标记的回归系数为零, SNP对表型没有影响。(比如某个基因的突变不会导致某种疾病

备择假设(H1,也叫对立假设,Alternative Hypothesis): 与原假设对立的假设,GWAS中的H1就是标记的回归系数不为零,SNP和表型相关。(比如某个基因的突变会导致某种疾病

Type I error (I类错误): 拒绝真实的H0,即假阳性,概率α为显著性水平;

Type II error (I类错误): 接受错误的H0,即假阴性,概率为β;功效(power): 拒绝错误H0的概率 1-β

假如选择了I类错误,给出H0、H1(与H0对立);根据得到的数据计算概率P,如果P<=α,则拒绝了H0,也即认为假设H0错误,H1正确;反之接受H0。

GWAS常用的处理方法

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值