31、遗传研究方法全解析

遗传研究方法全解析

在遗传学研究领域,探索疾病与基因之间的关联是一项至关重要的任务。通过各种研究方法和技术,科学家们能够深入了解疾病的遗传机制,为疾病的预防、诊断和治疗提供有力的支持。下面将为大家详细介绍几种常见的遗传研究方法。

基因定位与分析

基因定位是遗传学研究的重要环节,其目的是找出与疾病相关的基因。具体做法是构建由一系列紧密排列、高度多态性的标记组成的图谱,期望识别出代表单个个体中“可信”重组子的侧翼标记。这些标记所在的连锁区域可能包含多个已知功能的基因,这些基因可能与疾病的病因相关,这就是所谓的候选基因关联。

通过比较病例组和对照组在这些候选基因座上的基因型,可以检验它们是否与疾病真正相关。这种关联可能是因果关系,也可能是非因果关系,仅仅反映了与真正致病基因的连锁不平衡。在精细定位过程中,会利用各种分子技术或人类基因组计划建立的序列数据库,识别编码序列,并对每个序列进行多态性筛选。病例中存在而对照组中罕见的多态性可能是致病突变,致病突变也可能发生在非编码区域,此时可能需要对候选区域进行测序,这是一个非常耗时费力的过程。一旦确定了基因,就会使用分子方法研究其结构、每个外显子的功能、调控元件和其他特征。

遗传流行病学家会估计各种突变的频率以及每个突变对疾病风险的影响,包括与年龄、宿主或环境因素的相互作用。以下是基因定位与分析的步骤:
1. 构建多态性标记图谱。
2. 识别侧翼标记。
3. 比较病例组和对照组的基因型。
4. 筛选多态性。
5. 研究基因结构和功能。
6. 估计突变频率和影响。

家族研究

家族研究是检测致病基因的主要方法之一。疾病往往在家族中聚集,这通常归因于家族成员共享的基因。研究的亲属数量可以从两个家庭成员到庞大的系谱不等。家族关联研究的一个主要优点是可以控制由于人群分层导致的混杂偏倚,尽管可能会损失一定的效力。研究结果可以表达家族相关性,并比较总体人群患病率与家族中有患病个体时其他家族成员的患病风险。

根据家族成员与病例的亲缘关系(一级或二级亲属),可以计算不同类型家族成员的患病风险,还可以考虑病例发病年龄等额外因素。此外,对于某些疾病,招募家族成员可能比招募无关个体更容易,因为他们可能因为有患病的家庭成员而更有动力参与研究。在进行基因分型时,还可以检查孟德尔遗传规律。

传统的家族研究使用病例及其父母(三联体),通过传递不平衡检验(TDT)进行分析。研究从患病个体作为病例开始,招募其父母作为对照,这里的对照并非传统意义上的对照,而是比较父母传递给病例的等位基因与未传递的等位基因。这些对照通常被称为假同胞或假对照。数据会被整理成匹配的病例 - 对照研究,交叉列表显示每个父母传递给病例的等位基因与未传递的等位基因。传递不平衡检验用于测试某个特定等位基因是否比随机预期更频繁地传递。

在病例 - 同胞关联研究设计中,每个病例会与一个或多个未患病的同胞匹配。一般来说,合格的对照应该是那些达到病例诊断年龄的未患病同胞。双胞胎研究在区分疾病的遗传和环境因素方面发挥了重要作用,利用了同卵和异卵双胞胎形成的自然实验。经典的双胞胎方法是通过患病成员识别双胞胎对,并比较同卵(单卵)和异卵(双卵)双胞胎的一致率(共享基因的双胞胎对患同一种疾病的概率)。假设同卵和异卵双胞胎在相似程度上共享环境因素,但基因相似性不同,通过这种比较可以估计遗传率,即疾病潜在易感性变异中由共同基因引起的比例,以及由共享环境引起的比例。双胞胎设计的各种扩展包括分开抚养的双胞胎比较和双胞胎家族研究。

家族研究的常见类型及特点如下表所示:
|研究类型|特点|
| ---- | ---- |
|传统家族研究(三联体)|使用病例及其父母,通过TDT分析,比较传递与未传递的等位基因|
|病例 - 同胞关联研究|病例与未患病同胞匹配,合格对照需达到病例诊断年龄|
|双胞胎研究|区分遗传和环境因素,比较同卵和异卵双胞胎的一致率|

家族研究的流程可以用以下mermaid流程图表示:

graph LR
    A[确定患病个体] --> B[招募家族成员]
    B --> C[进行基因分型]
    C --> D[数据整理与分析]
    D --> E[计算患病风险]
    E --> F[检验遗传规律]
关联研究

遗传关联研究用于检测一个或多个遗传标记与连续或离散表型之间的关联。与连锁分析不同,关联研究可以在无关个体或家族中以相似的方式比较不同等位基因与表型的关系,并且在检测小效应方面比连锁研究更有效力,但需要检查更多的标记。

最简单的关联研究设计是病例 - 对照研究,收集一系列患有感兴趣疾病的病例和一系列对照个体。在这种情况下,表型是一个二元变量,如疾病的存在(患病率)或发生(发病率)。关联研究通过测试疾病状态与基因变异之间的相关性,找到对特定疾病有贡献的候选基因或基因组区域,是识别复杂疾病易感基因的主要工具,复杂疾病的易感性风险由遗传和环境因素共同作用。

遗传标记(多态性)是DNA水平上可测量的变异,同一物种个体之间核苷酸序列不同的染色体区域。常用的标记类型包括限制性片段长度多态性(RFLP)、随机扩增多态性DNA(RAPD)、扩增片段长度多态性(AFLP)、单链构象多态性(SSCP)、拷贝数变异(CNV)、微卫星和单核苷酸多态性(SNP)。其中,SNP是最常用的标记,当不同个体在基因组的同一位置(基因座)有许多遗传变异时就会出现多态性。每个可能的变异称为等位基因,如果只有一个核苷酸发生改变,该变异就被称为单核苷酸多态性(SNP)。在一系列患病个体中,SNP等位基因或基因型的频率较高可以解释为所测试的变异增加了特定疾病的风险。

每个基因座有两种可能性(双等位基因),每个个体在每个基因座上携带两个等位基因,分别来自父母的22条常染色体。基因型是某个基因座上观察到的一对等位基因,有三种可能的基因型:1/1、1/2和2/2。两个相同的等位基因(1/1或2/2)是纯合的,否则就是杂合的。

对多态性的统计分析基于估计每个等位基因的患病率,通过计算每个基因型的频率来估计基因型和等位基因频率。估计基因型频率时,使用观察到的基因型比率;计算等位基因频率时,将样本染色体数量加倍并统计每个等位基因的比率。在进行遗传多态性与疾病的关联分析之前,需要进行哈迪 - 温伯格平衡(HWE)检验,以评估从父母遗传的等位基因之间的独立性。统计检验会比较观察到的等位基因频率与在独立假设下的预期频率,检验统计量服从自由度为1的卡方分布。

多态性与疾病的关联分析将多态性描述为一个分类变量,每个可能的基因型为一个水平,参考类别为纯合形式。一组病例和对照中单个双等位基因SNP的基因型可以总结在一个2×3列联表中,显示每个组的基因型计数。可以对这个表格应用几种不同的统计分析方法。皮尔逊卡方检验用于评估病例和对照的基因型计数分布是否与零假设(即两者分布相同)有偏离,该检验统计量服从自由度为2的卡方分布。这种方法提供了有效的统计分析,但检验统计量中不使用列顺序,重新排列列顺序不会改变检验统计量的值和P值。另一种替代检验是 Cochr an - Armitage趋势检验(CATT),它用于检验表中有序基因型在病例和对照之间的差异趋势。这些检验是遗传疾病的主要分析工具。

通过估计每个基因型相对于参考基因型的优势比(OR),可以得到效应大小的度量。为了在模型中包含混杂变量并调整临床协变量,可以使用逻辑回归模型,该模型可以提供调整后的优势比,并允许评估多态性与其他因素之间的相互作用。逻辑回归是线性回归的扩展,通过逻辑函数将线性模型的结果转换为预测给定基因型类别下患病状态的概率。

对于连续表型,如蛋白质S或因子IIX等,可以用定量测量来表征。这些测量可以在线性回归框架下进行关联测试,评估基因型(作为解释变量)是否能预测性状值。基因型11、12和22可以编码为三级因子,或分别编码为携带0、1和2个等位基因的计数。结果用β系数表示,即等位基因2每个拷贝的加性效应。定量测量也可以在病例 - 对照框架下进行分析,通过将样本二分,但这种方法可能会导致效力损失,因为会丢失个体观察表型与二分阈值之间距离的所有信息。通过仅选择分布极端的个体,可以提高定量性状关联研究的效力。

此外,还有五种遗传模型可用于测试特定的遗传假设:
1. 共显性模型 :最通用的模型,允许每个基因型给出不同的非加性风险,比较杂合子1/2和变异等位基因纯合子2/2基因型与最常见等位基因纯合子1/1,估计两个OR。
2. 显性模型 :假设等位基因2的单个拷贝足以改变风险,比较1/2 + 2/2组合与纯合子1/1。
3. 隐性模型 :假设需要两个拷贝的2才能改变风险,1/2和1/1基因型具有相同的效应,比较1/1 + 1/2组合与变异等位基因纯合子2/2。
4. 超显性模型 :假设杂合个体比纯合个体具有更高的适应性,比较杂合基因型1/2与两个纯合基因型1/1 + 2/2的组合。
5. 加性模型 :假设等位基因2的每个拷贝以加性形式改变风险,纯合子2/2的风险是杂合子1/2的两倍,比较2(2/2) + 1/2组合与1/1。

为了确定最佳的遗传模型,可以通过似然比检验(LRT)将每个模型与共显性模型进行比较。似然比检验是一种统计检验,用于比较两个模型的拟合优度,通过比较两个模型的似然得分来评估哪个模型更适合数据集。检验统计量服从自由度等于模型中额外参数数量的卡方分布。还可以使用赤池信息准则(AIC)估计器或交叉验证(CV)技术来选择具有最少预测变量的最简单模型,以估计模型的准确性。在分析与协变量的相互作用时,可以使用逻辑回归模型,将基因型和环境变量或两个基因型变量纳入模型。β系数通过OR和相应的95%置信区间(CI)描述每个多态性与疾病之间的关联。

不同多态性在同一染色体上位置较近时的统计相关性称为连锁不平衡(LD)。D统计量用于测试两个基因座在人群中比随机预期更易关联的趋势,D′统计量是D在 - 1到1之间的缩放值,也可以用等位基因之间的相关系数r表示。每条染色体上一起传递的一组多态性称为单倍型。由于实验室技术的限制,基因型通常不提供染色体位置信息,因此当个体至少有两个杂合基因座时,其单倍型对是未知的。在实践中,会使用期望最大化(EM)算法或马尔可夫链蒙特卡罗(MCMC)方法等估计方法。

EM算法是一种两阶段迭代方法,首先给出单倍型频率的初始值,然后在E步骤中,根据哈迪 - 温伯格平衡,使用单倍型频率重新计算具有不确定单倍型的基因型的预期基因型频率;在M步骤中,计算基因型频率并统计每个基因型的兼容单倍型。最后,算法将计数收敛到单倍型频率。为了避免局部最大值,该方法会从不同的起始点重复进行。MCMC是一种有效的方法,对于每个个体,会以一定概率采样一个可能的单倍型解析,然后使用当前单倍型分配频率更新单倍型频率。通过使用Metropolis - Hastings方法,可以在不枚举所有可能单倍型分配的情况下对每个受试者进行采样,即翻转单个基因座或单个片段的等位基因,然后以一定概率接受或拒绝该提议。

单倍型与疾病的关联分析通过染色体分析而不是个体分析进行,因为每个个体有一对单倍型。样本会被复制,每个个体由其两个单倍型双重表示。通过逻辑回归模型,将每个单倍型的风险与参考类别(最常见的单倍型)进行比较。单倍型分析由于缺乏染色体信息和数据中的缺失值而存在不确定性,在分析具有多个选项的个体时,每个单倍型在逻辑回归模型中会赋予不同的权重。

遗传关联研究通常涉及测试大量假设,包括多个SNP或单倍型、多个表型、多个分析模型以及对多个层次(如性别、年龄和种族)的测试。对于所有关联研究,特别是那些进行了广泛多重测试而研究整体显著性不明确的研究,使用另一组独立数据复制结果是非常可取的。然而,只有当复制研究针对相同的变异、表型和遗传模型时,才能声称是复制结果,否则其他表型或基因内的变异不能作为复制证据。遗传关联研究的结果可能被解释为直接关联,即基因分型的SNP是导致疾病易感性的真正致病变异,但也可能是由于偶然或系统混杂(如人群分层或混合)导致的假阳性结果。

关联研究的步骤总结如下:
1. 选择研究设计(病例 - 对照研究等)。
2. 收集病例和对照个体。
3. 选择遗传标记(如SNP)。
4. 进行基因分型。
5. 统计分析多态性(估计频率、进行HWE检验等)。
6. 应用统计检验(皮尔逊卡方检验、CATT等)。
7. 选择遗传模型并比较。
8. 分析单倍型与疾病的关联。
9. 复制研究结果。

关联研究中常见的遗传标记类型及特点如下表所示:
|标记类型|特点|
| ---- | ---- |
|RFLP|限制性片段长度多态性|
|RAPD|随机扩增多态性DNA|
|AFLP|扩增片段长度多态性|
|SSCP|单链构象多态性|
|CNV|拷贝数变异|
|微卫星|具有高度多态性|
|SNP|最常用,单个核苷酸变异|

关联研究的流程可以用以下mermaid流程图表示:

graph LR
    A[选择研究设计] --> B[收集样本]
    B --> C[选择遗传标记]
    C --> D[基因分型]
    D --> E[统计分析多态性]
    E --> F[应用统计检验]
    F --> G[选择遗传模型]
    G --> H[分析单倍型关联]
    H --> I[复制研究结果]

遗传研究方法全解析

孟德尔随机化功能分析

遗传关联研究的主要目标是识别导致特定疾病发生、发展或治疗反应的风险因素或中间表型。一旦确定了这些因果风险因素,就可以采取预防措施,并将其作为有吸引力的治疗靶点。随机对照试验(RCTs)是建立因果关系的黄金标准,但由于成本过高、不切实际甚至不道德等原因,并非总能进行。当RCTs不可行时,可以在观察性研究中调查风险因素,如队列研究、病例 - 对照研究或横断面研究。然而,这些研究不仅在感兴趣的风险因素上存在差异,还在一些观察到和未观察到的特征上存在差异,组间差异可能归因于这些特征中的任何一个,而不能直接确立因果关系,这可能是由于混杂或反向因果关系导致的。

混杂问题可以通过在回归模型中纳入已知和测量的混杂因素(多变量回归)进行统计处理。但当混杂因素未被观察、测量或未知,或者混杂因素数量过多时,回归方法可能无法提供对真实关联的无偏估计。工具变量方法是一种替代统计方法,用于在控制任何混杂因素的同时检验因果关系。工具变量用于替代将个体随机分配到疑似风险因素的过程,确保各组在任何已知和未知混杂因素方面具有可比性。

基因变异,如单核苷酸多态性(SNPs),可以用作工具变量,因为等位基因在任何风险因素或疾病出现之前就分配给了个体。基因工具不可修改,确保了终身暴露,并减轻了对反向因果关系的担忧。给定SNP的等位基因是随机分配的遗传变异,与潜在的混杂环境风险因素无关。由于与孟德尔定律的关系,“孟德尔随机化”这一术语由此产生。

孟德尔随机化研究中,选择合适的基因工具变量至关重要。为了无偏估计风险因素对疾病的因果效应,有效的基因工具变量需要满足三个假设:
1. 它必须与风险因素有可重复且强烈的关联。
2. 它不能与混杂因素(其他风险因素)相关联。
3. 它只能通过风险因素与疾病相关联。

可以通过扫描已发表的数据库或评估与感兴趣风险因素的基因关联的报告(如全基因组关联研究,GWAS)来识别基因工具变量,因为这些研究代表了无假设扫描,其中风险因素和/或疾病会与数百万个SNP进行关联测试。SNP可以作为替代风险因素随机分配的工具,用于评估因果关系。最好选择位于生物学功能最清楚的基因中的SNP,因为清晰的生物学机制有助于检查孟德尔随机化的第二和第三个假设。另一种选择是使用不同的基因工具变量,并比较每个变量的分析结果,或者生成由多个基因工具变量组成的基因评分。

孟德尔随机化分析包括两个步骤:首先,检查上述三个假设;其次,评估风险因素与疾病之间的因果效应。在孟德尔随机化研究中,只有基因工具变量与感兴趣风险因素的强关联这一假设可以直接使用现有数据进行测试,这种关联可以通过线性或逻辑回归(F统计量、部分r²、优势比、风险比或风险差异)进行实证测试。基因工具变量与混杂因素无关联的假设通常由于等位基因随机分配到配子而被认为是满足的,但也可以通过评估基因工具变量与观察到的混杂因素之间的关联进行实证测试。不过,没有这种关联并不能证明不存在混杂。对于基因变异只能通过特定风险因素与疾病相关联这一假设,也有一些统计测试方法(如Sargan检验、Q检验)。

进行孟德尔随机化分析并估计因果效应大小有多种方法,具体方法的选择取决于实际情况。标准方法是使用线性模型,通过Wald比率估计(βMR)来估计风险因素通过基因工具变量对疾病的因果效应,βMR等于疾病对基因工具变量的回归系数(βY~G)除以风险因素对基因工具变量的回归系数(βX~G)。另一种方法是通过疾病对基因工具变量的回归(βY~G),并将预期效应估计计算为风险因素对基因工具变量的回归效应估计(βX~G)与疾病对风险因素的回归效应估计(βY~X)的乘积。

孟德尔随机化可以使用汇总统计数据进行,这有助于利用已发表的GWAS研究结果,而无需单独进行孟德尔随机化分析。在这种方法中,基于已发表的汇总统计数据(代表βY~G和βX~G的回归系数)的比率用于评估由单个或多个基因工具变量代表的风险因素的因果效应。还可以进行两样本孟德尔随机化,即从两个不同的数据集中生成或收集基因型与风险因素以及基因型与疾病之间的关联估计(汇总统计数据),这两个数据集可以没有或仅有有限数量的重叠个体。双向孟德尔随机化可用于解决因果关联的方向性问题,因为反向因果关系是观察性研究中的常见问题。网络孟德尔随机化可用于研究变量之间更复杂的因果关系,当一些风险因素对疾病的影响通过中间变量发生时。

孟德尔随机化分析的步骤如下:
1. 选择基因工具变量(满足三个假设)。
2. 检查基因工具变量与风险因素的关联(线性或逻辑回归)。
3. 评估基因工具变量与混杂因素的关系。
4. 测试基因工具变量与疾病仅通过风险因素关联的假设。
5. 选择合适的方法估计因果效应(Wald比率估计等)。
6. 考虑使用汇总统计数据、两样本、双向或网络孟德尔随机化。

孟德尔随机化中不同方法的特点如下表所示:
|方法|特点|
| ---- | ---- |
|标准线性模型(Wald比率估计)|通过回归系数比值估计因果效应|
|汇总统计数据法|利用已发表GWAS结果,无需单独研究|
|两样本孟德尔随机化|使用两个不同数据集,减少重叠个体影响|
|双向孟德尔随机化|解决因果关联方向性问题|
|网络孟德尔随机化|研究复杂因果关系|

孟德尔随机化分析的流程可以用以下mermaid流程图表示:

graph LR
    A[选择基因工具变量] --> B[检查与风险因素关联]
    B --> C[评估与混杂因素关系]
    C --> D[测试与疾病关联假设]
    D --> E[选择估计方法]
    E --> F[考虑特殊方法应用]

综上所述,遗传研究方法多种多样,每种方法都有其独特的优势和适用场景。基因定位与分析帮助我们找到与疾病相关的基因;家族研究通过家族成员的遗传信息控制混杂偏倚;关联研究检测遗传标记与表型的关联;孟德尔随机化分析则用于确立因果关系。在实际研究中,需要根据研究目的、数据特点和资源情况选择合适的方法,以深入了解疾病的遗传机制,为疾病的防治提供科学依据。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值