全基因组关联研究:设计、分析与验证策略
1. 单阶段与多阶段设计概述
在全基因组关联研究(GWAS)中,传统的做法是在分析之前,使用现有的单核苷酸多态性(SNP)芯片对所有研究对象进行全基因组水平的基因分型,然后利用所有研究对象的基因型数据对每个标记进行基因关联测试。如果经过多重比较调整后,相应关联测试的p值显著,就将该SNP宣布为全基因组显著。这种设计和分析计划通常被称为单阶段设计。
然而,基于全基因组SNP芯片的基因分型仍然是一个相对昂贵的过程,尤其是与针对少量SNP的靶向基因分型相比。为了尽量减少基因分型费用,多阶段设计应运而生。
1.1 多阶段设计步骤
多阶段设计(K步)的第一步是将研究样本分成K个独立的子集,并将每个子集分配到K个阶段中的一个。然后,对第一子集的研究对象使用全基因组SNP芯片进行基因分型,并选择基因关联测试p值最有前景的SNP,即p值小于第一阶段临界值α1的SNP,进入第二阶段进行基因分型。由于第一阶段的临界值α1通常在0.01到0.10的范围内,因此在研究的第二阶段需要进行基因分型的SNP数量要少得多。
在第k阶段,对前一阶段确定的SNP在第k个子集中进行基因分型,将关联测试p值小于临界值αk的SNP推进到下一阶段。这个过程一直持续到多阶段设计的最后阶段。在最后阶段,将关联测试p值小于αK的SNP宣布为全基因组显著。
1.2 单阶段与多阶段设计比较
在总样本量不变的情况下,单阶段设计显然比多阶段设计更有威力,因为每个SNP有更多的数据可用。但多阶段设计的优势在于,最昂贵的全基因组SNP芯片基因分型只应用于部分研究对象,因此多阶段设计通常比单阶段设计更具成本效益。不过,随着SNP芯片价格的下降速度比后续阶段使用的选择性基因分型价格下降速度更快,多阶段设计的成本优势可能很快变得无关紧要。
此外,多阶段设计的基因分型和分析分布在更长的时间窗口内。在研究对象需要逐步招募,或者年度预算有限的情况下,多阶段设计是值得考虑的优秀选择。
2. 多阶段设计分析
2.1 标准分析方法
多阶段设计的标准分析方法是在每个阶段,针对所有在该阶段进行基因分型的标记,计算每个子集对象的关联测试统计量。与单阶段设计类似,需要控制族系误差率(FWER)α。单阶段GWAS的“典型”FWER α水平为10⁻⁷,这是通过对500,000个测试SNP进行Bonferroni校正,以达到总体α水平为5%。
2.2 全基因组显著性定义
在多阶段设计中,一种定义全基因组显著性的方法是,宣布所有在设计的每个阶段中,关联p值小于预先指定的临界水平αk(k = 1, …, K)的SNP具有显著性。
以两阶段设计为例,假设在第一阶段对M个SNP进行基因分型。在没有任何遗传关联的零假设下,临界水平α1可以被看作是在第一阶段,对于任何给定标记,关联测试在零假设为真时拒绝零假设的概率,第二阶段的临界水平α2同理。设定GWAS的族系误差率为α,并假设标记之间没有连锁不平衡(LD),可以得到以下关系:
1 - α = P(在第2阶段,M个SNP中没有一个拒绝H0)
经过一系列推导:
[
\begin{align
}
1 - \alpha&=\sum_{i = 0}^{M}P(\text{对于}i\text{个SNP}: H_0\text{在第1阶段被拒绝,但在第2阶段未被拒绝})\
&=\sum_{i = 0}^{M}P(\text{对于}i\text{个SNP}: H_0\text{在第1阶段被拒绝})\times P(\text{对于}i\text{个SNP}: H_0\text{在第2阶段未被拒绝})\
&=\sum_{i = 0}^{M}\left[\binom{M}{i}\alpha_1^i(1 - \alpha_1)^{M - i}\right]\times(1 - \alpha_2)^i\
&=\sum_{i = 0}^{M}\left[\binom{M}{i}(\alpha_1(1 - \alpha_2))^i(1 - \alpha_1)^{M - i}\right]\
&=[\alpha_1(1 - \alpha_2)+(1 - \alpha_1)]^M=(1 - \alpha_1\alpha_2)^M
\end{align
}
]
使用二阶泰勒展开,(1 - α)^(1/M)可以近似为1 - α/M。将此近似应用于上述方程,得到总体显著性水平α与两个临界值α1和α2之间的关系:
[
\frac{\alpha}{M}=\alpha_1\times\alpha_2
]
对于K阶段的多阶段设计,在假设SNP相互独立的情况下,可以证明:
[
\frac{\alpha}{M}=\prod_{k = 1}^{K}\alpha_k
]
每个阶段的临界值应指定为使设计的总体功效最大化。例如,当设计的每个阶段有相同数量的研究对象时,最有效的定义临界值α1和α2的方法是α1 = α2 = √(α/M)。
2.3 分析策略
- 分阶段分析 :按照多阶段设计分阶段进行分析,将最后阶段p值小于临界值αK的SNP宣布为全基因组显著。
- 联合分析 :考虑对在所有阶段进行基因分型的SNP进行联合分析。这种方法的优点是在最后阶段使用了所有数据,但各阶段不再独立。在联合分析中,使用Fisher方法或Liptak方法等将所有阶段的关联测试组合起来,并对在第一阶段进行全基因组水平基因分型的所有标记进行多重比较调整。
假设第k阶段第m个标记的Z分数为Zmk,相应的p值为pmk,Fisher方法的组合测试统计量为:
[
Z_m^2=-2\sum_{k = 1}^{K}\ln(p_{mk})
]
其中Z_m^2服从自由度为2K的卡方分布。
Liptak方法的组合测试统计量为:
[
Z_m=\frac{\sum_{k}\sqrt{n_k}Z_{mk}}{\sqrt{\sum_{k}n_k}}\sim N(0,1)
]
其中nk表示第k阶段可用的样本量。
在联合分析中,组合测试统计量的p值必须小于对在研究第一阶段进行基因分型的所有SNP进行调整后的总体第一类错误率,即使用与单阶段设计相同的Bonferroni校正α/M。
大量的功效研究表明,除非研究各阶段之间存在显著的异质性,联合分析总是更有威力。
3. 基于家系研究的测试策略
在基于家系的关联研究中,标记位点与表型之间的基因关联信息可以分解为两个统计上独立的成分,这使得可以构建分阶段的测试策略,在保持对群体亚结构的原始鲁棒性的同时,最大化基于家系研究的功效。
3.1 两个独立成分
- 家系间成分 :包含群体水平上SNP - 性状关联的信息,基于先证者的表型Y和父母的基因型P进行评估。例如,在分析数量性状时,可以使用后代表型和父母基因型来构建遗传效应大小的估计。
- 家系内成分 :表征家系水平上的SNP - 性状关联,即父母向后代的等位基因传递。家系内成分对应于之前讨论的FBAT/TDT统计量。基于家系的关联测试(如TDT或FBAT)是条件测试,将后代基因型X视为随机变量,以后代表型Y和父母基因型P为条件。当父母信息缺失且对额外的兄弟姐妹进行了基因分型时,可以通过以充分统计量S为条件来轻松采用该方法。
3.2 两阶段测试策略
基于家系设计中关联的两个信息来源,X、Y和P的联合分布密度可以划分为两个统计上独立的成分:
[
p(X,Y,P)=p(X|Y,P)\times p(Y,P)
]
密度p(Y, P)是测试策略第一步(筛选测试)的基础,密度p(X|Y, P)是应用于第二步(测试步骤)的基于家系关联FBAT/TDT的基础。这种似然分解意味着筛选步骤和测试步骤是独立的。筛选步骤中每个标记的“关联证据”(即遗传效应大小估计)可用于在第二阶段对SNP进行优先级排序,而无需调整第一阶段遗传效应大小估计的总体显著性水平。
一种方法是根据筛选步骤选择非常少量(通常少于100个)的SNP,并在测试步骤中仅对这些SNP进行关联测试。由于测试的SNP数量较少,且测试步骤与筛选步骤独立,与测试所有基因型SNP的分析相比,多重比较调整的要求要宽松得多,因此相对于测试所有基因分型SNP的分析方法,功效提升可能相当显著。
该算法已用于肥胖、阿尔茨海默病和注意力缺陷多动障碍等基于家系的GWAS,并发现了新的基因关联。
4. 复制、非复制与荟萃分析
在任何关联研究中,发现SNP与性状之间的新关联后,最重要的步骤是在独立研究中验证或复制该关联。在具有相同或相关表型的独立研究中对相同的SNP进行基因分型并测试关联。该领域普遍认为,在另一项研究中复制尝试成功需满足以下条件:
-
关联测试显著
:复制样本的关联测试在名义α水平为5%时显著,即对与最初发现关联时相同的标记/SNP和可比表型的关联测试必须在名义5%水平上显著。由于研究设计在表型(定量与二分、基于群体与基于家系等)方面可能有所不同,复制研究中使用的关联测试统计量不一定与最初发现关联时的测试统计量相同。
-
相同遗传模式
:复制样本的关联测试统计量应基于与原始关联报告中应用的相同遗传模型,以确保结果的一致性和稳健性。
-
关联信号方向相同
:遗传效应的方向必须与初始发现一致。例如,如果在原始关联报告中,次要等位基因与疾病风险增加相关,复制研究必须显示相同的模式。
-
足够样本量
:复制样本的样本量应足够大,以提供足够的统计功效来检测初始关联发现,即至少具有80 - 90%的功效。样本量过小的研究无法可靠地确认真正的基因关联,将其纳入复制尝试可能导致假阴性结果和对真正发现的忽视。
需要注意的是,非复制并不一定意味着最初的关联发现是假阳性。除了假阳性结果的可能性外,复制失败还有许多原因:
-
LD结构变化
:最初测试的标记不太可能是真正的致病位点,而更可能与它处于连锁不平衡状态。在受影响的研究对象中,已识别的SNP与真正致病位点之间的局部LD模式不一定遵循健康个体的模式,相对较小的LD结构变化可能导致“翻转”效应,即关联方向反转。
-
遗传效应异质性
:遗传效应可能根据协变量(如年龄)或表型定义而变化。例如,对于体重指数(BMI),一些基因(如INSIG2、FTO和ROBO1)存在年龄依赖性遗传效应,某些与BMI的关联在儿童期到20岁容易检测到,但在老年时可能变得不那么明显。
-
研究差异
:复制研究在分析表型的重要预测变量方面可能与原始研究不同,这些混杂因素包括身体特征(如年龄)、环境因素以及研究设计等。
-
统计误差
:复制研究可能功效不足,或者复制仅仅是偶然失败。除非功效极高,关联测试仍然是一个可能导致假阴性结果的统计实验。
以下是一个简单的mermaid流程图,展示基于家系研究的两阶段测试策略:
graph LR
A[家系数据] --> B[家系间成分分析(筛选测试)]
B --> C{选择少量SNP}
C -->|是| D[家系内成分分析(测试步骤)]
D --> E[宣布显著SNP]
C -->|否| F[无显著结果]
综上所述,全基因组关联研究在设计、分析和验证过程中有多种策略可供选择,每种策略都有其优缺点和适用场景。研究人员需要根据研究目的、资源和数据特点等因素,选择最合适的方法,以提高研究的效率和准确性。
5. 不同策略的综合比较与选择
5.1 多阶段设计与单阶段设计对比
| 设计类型 | 优点 | 缺点 | 适用场景 |
|---|---|---|---|
| 单阶段设计 | 分析简单直接,每个SNP有更多数据,统计功效相对较高 | 基因分型成本高,需要一次性对所有样本进行全基因组基因分型 | 样本量充足且资金预算充裕,希望快速获得全面结果的研究 |
| 多阶段设计 | 成本效益高,仅对部分样本进行全基因组基因分型;可分阶段进行,适合样本逐步招募或预算有限的情况 | 统计功效相对单阶段设计略低;需要合理确定各阶段样本子集大小和临界值αk | 资金有限,注重成本控制,且不追求一次性完成所有分析的研究 |
5.2 分阶段分析与联合分析对比
| 分析策略 | 优点 | 缺点 | 适用场景 |
|---|---|---|---|
| 分阶段分析 | 各阶段相对独立,分析思路清晰;可逐步筛选出有潜力的SNP | 未充分利用所有阶段的数据信息,可能遗漏一些微弱但真实的关联信号 | 各阶段数据异质性较大,难以进行联合分析的情况 |
| 联合分析 | 充分利用了所有阶段的数据,统计功效更高 | 各阶段不再独立,需要更复杂的方法进行多重比较调整 | 各阶段数据同质性较好,希望挖掘更多关联信息的研究 |
5.3 基于家系研究策略与其他策略对比
基于家系的研究策略主要优势在于能够有效控制群体亚结构的影响,并且通过分阶段测试策略提高了统计功效。与基于群体的研究策略相比,基于家系研究更适合研究遗传效应在家族内部的传递规律,对于一些具有明显家族聚集性的疾病研究更为有效。而基于群体的研究策略则更侧重于在大规模人群中发现普遍存在的基因关联,样本代表性更广泛,但容易受到群体分层的干扰。
研究人员在选择研究策略时,需要综合考虑研究目的、样本特点、资金预算、时间限制等多方面因素。例如,如果研究的是罕见病且有丰富的家系样本,基于家系的研究策略可能更为合适;如果是研究常见复杂疾病且样本量较大,多阶段设计结合联合分析的策略可能更能平衡成本和功效。
6. 研究策略的优化建议
6.1 多阶段设计优化
- 合理确定样本子集大小 :根据研究的总体样本量和各阶段的目标,合理分配每个阶段的样本子集大小。可以通过模拟研究或参考以往类似研究来确定最佳的子集大小,以确保在控制成本的同时,不显著降低统计功效。
- 优化临界值αk :对于K阶段的多阶段设计,根据公式(\frac{\alpha}{M}=\prod_{k = 1}^{K}\alpha_k),结合研究的实际情况,合理确定每个阶段的临界值αk。当各阶段样本量相同时,可采用α1 = α2 = … = αK = (\sqrt[K]{\frac{\alpha}{M}})的方式确定临界值,以实现总体功效的最大化。
6.2 联合分析优化
- 选择合适的组合方法 :在联合分析中,Fisher方法和Liptak方法各有优缺点。Fisher方法适用于各阶段数据独立性较强的情况,而Liptak方法在考虑样本量权重方面更有优势。研究人员应根据数据特点和研究目的选择合适的组合方法。
- 准确进行多重比较调整 :联合分析中需要对在第一阶段进行全基因组水平基因分型的所有标记进行多重比较调整。除了常用的Bonferroni校正外,还可以考虑使用更灵活的方法,如错误发现率(FDR)校正,以在控制假阳性率的同时,提高发现真实关联的能力。
6.3 基于家系研究策略优化
- 完善筛选标准 :在基于家系研究的筛选步骤中,进一步优化选择少量SNP的标准。可以结合生物信息学知识,考虑SNP的功能注释、在基因组中的位置等因素,提高筛选出有潜力SNP的准确性。
- 扩大样本范围 :适当扩大家系样本的范围,纳入更多不同类型的家系,以提高研究结果的普遍性和可靠性。同时,对家系样本进行详细的表型和环境信息收集,有助于更好地分析基因与环境的交互作用。
7. 未来研究趋势展望
7.1 技术创新推动研究发展
随着基因测序技术的不断进步,测序成本将进一步降低,测序精度和通量将不断提高。这将使得全基因组关联研究能够纳入更多的样本和标记,发现更多微弱但真实的基因关联。例如,单细胞测序技术的发展将有助于深入研究细胞水平的基因表达和调控机制,为疾病的发病机制研究提供更精细的信息。
7.2 多组学数据整合
未来的全基因组关联研究将不再局限于单一的基因数据,而是会整合转录组学、蛋白质组学、代谢组学等多组学数据。通过综合分析不同层面的生物信息,能够更全面地了解基因与表型之间的关系,揭示疾病的复杂发病机制。例如,结合基因表达数据和蛋白质相互作用网络,可以更好地理解基因变异如何影响蛋白质功能,进而导致疾病的发生。
7.3 个性化医学应用
全基因组关联研究的成果将越来越多地应用于个性化医学领域。通过分析个体的基因信息,预测疾病的发生风险,制定个性化的预防和治疗方案。例如,对于某些癌症患者,根据其基因特征选择最适合的靶向治疗药物,提高治疗效果和患者的生活质量。
以下是一个mermaid流程图,展示未来全基因组关联研究的发展趋势:
graph LR
A[基因测序技术进步] --> B[更多样本和标记研究]
B --> C[发现更多基因关联]
A --> D[多组学数据整合]
D --> E[全面了解基因与表型关系]
C --> F[个性化医学应用]
E --> F
总之,全基因组关联研究在设计、分析和验证等方面有多种策略和方法可供选择,并且随着技术的发展和研究的深入,将不断涌现新的研究思路和方法。研究人员需要紧跟时代步伐,灵活运用各种策略,以推动该领域的不断发展,为人类健康事业做出更大的贡献。
超级会员免费看
1893

被折叠的 条评论
为什么被折叠?



