遗传分析中的多点连锁、评分测试与TDT测试
1. 多点连锁分析
1.1 基于观察数据的似然计算
在进行遗传分析时,若能观察到父母的基因型,似然计算会相对简单,且无需等位基因频率信息。然而,若缺少父母基因型,就需要像使用IBD(Identity - by - Descent)那样提供等位基因频率。对于完全外显的隐性疾病,我们可以直接在疾病易感位点(DSL)以及与DSL有重组分数θ的标记位点估计共享概率。例如,图A.3展示了一个假设的同胞对在DSL处共享概率的计算情况;若要计算附近标记处的IBD概率,则需明确DSL与标记之间的θ值。
1.2 重组对IBD共享概率的影响
IBD共享在一对后代中,从一个位点到下一个位点通常保持不变,除非在这两个位点之间形成配子时发生重组。以图6.1中的父母为例,假设两个后代从该父母处分别继承了A和a,那么他们在A位点的IBD状态为0。若两个后代在传递过程中都没有发生重组(概率为(1 - θ)²),或者都发生了重组(概率为θ²),则在B位点的IBD状态仍为0;反之,若只有一个后代发生重组(概率为2θ(1 - θ)),则在B位点的IBD状态为1。由此可知,从该父母处IBD共享状态从A位点的0变为B位点的1的概率为2θ(1 - θ)。
1.3 转移概率的推导与应用
由于不同父母的重组是相互独立的,通过考虑位点A所有可能的IBD值以及父母向后代的所有可能传递情况,我们可以推导出转移概率,如下表所示:
| IBD at Locus 1 | IBD at Locus 2: 0 | IBD at Locus 2: 1 | IBD at Locus 2: 2 |
| — | — | — | — |
| 0 | ψ² | ψ(1 - ψ) | (1 - ψ)² |
| 1 | 2ψ(1 - ψ) | 1 - 2ψ(1 - ψ) | 2ψ(1 - ψ) |
| 2 | (1 - ψ)² | ψ(1 - ψ) | ψ² |
其中,ψ = θ² + (1 - θ)²。转移概率的一个用途是,在给定DSL处一组假设的共享概率的情况下,计算在备择假设下标记的共享概率,这有助于进行不同θ值和疾病模型假设下的样本量和/或功效计算。
1.4 多点分析的概念与优势
转移概率的使用直接引出了多点分析的概念。多点分析利用所有标记的数据,计算每对个体在每个标记以及标记之间每个点的共享情况。要实施多点分析,需要一个能给出每对相邻标记之间θ值的遗传图谱。多点分析有两个主要优点:
- 若某个标记的信息不完整(如某个家庭在该标记处的数据未被观察到,或父母均为纯合子,无法推断共享情况),转移概率可让我们根据相邻标记的数据以及两个位点之间已知的重组分数来预测共享情况。
- 我们可以预测共享情况,从而计算染色体上每个点的最大LOD分数,而不仅仅是在观察到的位点上计算。通过一组覆盖整个连锁图谱的标记,我们可以检验零假设H0:DSL与基因组中的任何位点都没有连锁关系。该检验基于最大LOD分数(在整个基因组上取最大值),使用基于高斯马尔可夫过程的模拟或理论来计算p值。但在实际计算最大LOD分数时,无论是参数方法还是非参数方法,都会因无法观察到每个个体的IBD状态(或参数设置中的相位),以及需要使用给定位置两侧的侧翼标记数据而变得复杂。Lander - Green算法常用于计算具有大量标记但家系规模较小(如核心家庭)的多点似然。
1.5 多点连锁分析流程
graph LR
A[收集遗传数据] --> B[判断是否有父母基因型]
B -- 有 --> C[简单似然计算]
B -- 无 --> D[提供等位基因频率]
C --> E[计算DSL及标记位点共享概率]
D --> E
E --> F[分析重组对IBD共享概率影响]
F --> G[推导转移概率]
G --> H[应用转移概率计算标记共享概率]
H --> I[进行多点分析]
I --> J[计算最大LOD分数]
J --> K[检验零假设]
2. 家庭设计的一类评分测试
2.1 基于似然的TDT测试扩展
简单的TDT(Transmission - Disequilibrium Test)测试是一种基于后代基因型似然的评分测试,其条件为后代性状和父母基因型。在一般情况下,对于第i个家庭,用Yi表示后代性状向量,Xi表示后代基因型向量,f(Yi | Xi, Pi, γ)表示在后代基因型、父母基因型和未知参数γ条件下性状的概率密度。在遗传学中,f(•)是外显函数,它指定了遗传疾病模型。通常假设当模型中包含后代基因型时,f(Yi | Xi, Pi, γ)不直接依赖于父母基因型,因此后续可省略父母基因型。此外,一般假设每个后代的表型仅取决于自身基因型,而非其他同胞的基因型。在存在由于共享环境或未观察到的遗传因素导致的相关性时,f(Yi | Xi, γ)通常不能分解为每个后代的独立贡献。但假设表型独立会使测试统计量具有特别简单的形式。虽然通过建模表型相关性可能会提高功效,但假设独立并不会使测试的α水平失效。因此,我们假设:
$f(Yi, |Xi, γ) = \prod_{j} f(Yi_j|Xi_j, γ)$
其中,乘积是对第i个家庭中的所有j进行的。
2.2 参数设定与条件似然
向量γ通常包含关联参数β和干扰参数α,它们描述了性状分布的其他方面。例如,若性状服从正态分布,通常假设基因型影响均值而非方差。具体来说,我们将参数设置为$f(Yi_j, |Xi_j, γ) = f(Yi_j|Xi_j, β, α)$,在零假设下,β = 0,即$f(Yi_j|Xi_j, β = 0, α) = f(Y|α)$,这意味着在零假设下,性状的分布不依赖于后代的标记基因型。另外,$f(Xi_j|Pi)$是后代基因型在父母基因型条件下的概率密度,它完全由孟德尔定律决定(对于单个后代或在H0中包含θ = 1/2的情况),而外显函数反映了我们的备择假设,是假设而非已知的。后代基因型(Xi_j)在父母基因型(Pi)和后代性状(Yi_j)条件下的条件似然为:
$f(Xi_j|Yi_j, γ) = \frac{f(Yi_j|Xi_j, γ) f(Xi_j|Pi)}{\sum_{j = 1,\cdots,n_i} f(Yi_j|Xi_j, γ) f(Xi_j|Pi)}$
其中,求和是对所有与Pi兼容的Xi_j值进行的。为了构建总数据对数似然,我们对每个$f(Xi_j|Yi_j, γ)$取对数,并对所有i和j求和,得到:
$L = \sum_{j = 1,\cdots,n_i,i = 1,\cdots,n} \ln f(Xi_j|Yi_j, γ)$
2.3 评分统计量的计算
为了得到评分统计量,我们对L关于β求导,并在β = 0处求值。假设$f(Yi_j|Xi_j)$采用指数族形式,且Yi_j的均值符合广义线性模型(GLM),则评分可简单表示为:
$U = \sum_{j = 1,\cdots,n_i,i = 1,\cdots,n} [(Yi_j - E(Yi_j)][Xi_j - E(Xi_j|Pi)]$
其中,$E(Yi_j)$是在H0:β = 0的条件下计算的。假设在H0下θ = 1/2,U的方差计算如下:
$var(U) = \sum_{i = 1,\cdots,n,j = 1,\cdots,n_i} T_{ij}^2 var(Xi_j|Pi)$
其中,$E(Xi_j|Pi)$和$var(Xi_j|Pi)$均使用孟德尔定律计算。
2.4 评分测试的性质
在零假设下,$f(Yi_j|Xi_j, γ)$不依赖于Xi_j,因此在上述条件似然方程中会被消去。无论是否假设表型独立,这一结论都成立。我们只需要$f(Yi, |Xi, Pi, γ)$在β = 0时不依赖于Xi即可。由于我们以性状为条件,评分测试的分布仅取决于零假设下Xi_j的分布,因此在H0下,该测试对关于$f(Yi, |Xi, Pi, γ)$的假设具有稳健性。以Pi为条件的重要特点是,不需要任何控制父母基因型分布的干扰参数,如等位基因频率、随机交配假设和哈迪 - 温伯格平衡。分布取决于给定Pi时Xi_j的联合分布。$E(Xi_j|Pi)$由孟德尔第一定律给出,但如果存在连锁且每个家庭有多个后代,U的方差需要进行调整。在干扰参数α的情况下会出现一个复杂问题,在H0下,$f(Yi_j|α)$会从条件似然中消失,因此无法通过最大似然法估计α。对于一般的FBAT统计量,我们只需要指定H0下的$E(Yi_j)$。如果数据是从总体中随机抽样得到的,可以用性状的样本均值来估计它,但对于二分性状,这会是一个更大的问题。
2.5 缺失父母时的处理
当父母信息缺失时,我们用$f(Xi|Si)$代替$f(Xi|Pi)$,其中Xi是第i个家庭中后代基因型的向量,Si是父母基因型的充分统计量;若没有父母基因型缺失,Si = Pi。充分统计量Si具有以下性质:
$f(Xi, Pi, \Phi) = f(Xi|Si) f(Si|Pi, \Phi)$
其中,$\Phi$包含所有控制Pi分布的参数和假设,如等位基因频率、随机交配、HWE等。注意,$f(Xi|Pi)$仅依赖于孟德尔定律,而不依赖于$\Phi$。将似然中的$f(Xi|Pi)$替换为$f(Xi|Si)$后,评分统计量保持不变,只是将$E(Xi_j|Pi)$替换为$E(Xi_j|Si)$,将$var(U)$替换为:
$var(U) = \sum_{i = 1,\cdots,n}\sum_{j = 1,\cdots,n_i,j’<j} T_{ij}^2 var(Xi_j|Si) + 2T_{ij}T_{ij’} cov(Xi_j, Xi_{j’}|Si)$
一般来说,需要更多的同胞来获得$f(Xi|Si)$的非退化分布。常染色体标记这些分布的推导在Rabinowitz和Laird(2000)中有给出,并在FBAT和PBAT软件包中实现。X染色体的情况是一个直接的扩展,并且已被集成到这两个软件包中。
2.6 评分测试流程
graph LR
A[定义家庭数据] --> B[设定参数γ]
B --> C[计算条件似然f(Xi_j|Yi_j, γ)]
C --> D[构建总数据对数似然L]
D --> E[求评分统计量U]
E --> F[计算U的方差var(U)]
F --> G[分析评分测试性质]
G --> H[处理父母信息缺失情况]
3. TDT测试用于连锁和关联
3.1 基本假设
我们假设存在一个疾病等位基因D,使得$f(D) \neq f(d)$,其中$f(D)$是具有D等位基因的后代患疾病的概率,$f(d)$是具有DSL处任何其他等位基因的后代患疾病的概率。函数$f(D)$取决于许多因素,包括遗传模式以及父母中疾病基因型分布的假设。这里不需要对这些量做任何假设,只需知道D是一个在某个位点上与等位基因d对疾病风险有不同直接影响的等位基因(或等位基因集合),并且标记位于常染色体上。进一步假设,在疾病等位基因状态已知的条件下,标记对疾病没有直接影响。该论证可以扩展到处理X染色体的情况。
3.2 相关参数定义
用θ表示标记与DSL之间的重组分数,θ = 1/2表示无连锁,θ = 0表示两个位点相同;用δ表示两个位点之间的连锁不平衡(LD),δ = 0表示无LD;用τ表示传递概率,即:
$\tau = P(Aa \text{ 父母传递 } A|Y = 1, \theta, \delta)$
其中,Y = 1表示受影响的后代。因此,(1 - τ)是传递a的相应概率。
3.3 证明TDT的零假设
我们将证明,如果θ = 1/2,或δ = 0,或两者都成立,则τ = 1/2,即TDT的零假设H0成立。反之,τ ≠ 1/2的条件是θ < 1/2且δ ≠ 0。考虑表C.1中的图表,它展示了标记为Aa的个体涉及标记和DSL的三种可能的未分型基因型,表格的最后一行显示了双杂合子的可能相位。很明显,在疾病等位基因上为纯合子的父母在备择假设下没有信息价值。因为无论传递A还是a,传递的都是相同的疾病等位基因,所以后代的疾病状态不受标记传递的影响,即:
$\tau = P(Aa \text{ 父母传递 } A | Y = 1, \theta, \delta, DD \text{ 或 } dd \text{ 在DSL}) = P(Aa \text{ 父母传递 } a | Y = 1, \theta, \delta, DD \text{ 或 } dd \text{ 在DSL}) = 1/2$
3.4 双杂合子父母的传递概率分析
设π为p(phase = AD/ad)。在双杂合子父母的条件下,很容易看出δ = 0意味着π = 1/2。疾病等位基因的传递取决于相位,一般来说,相位的概率取决于两个位点的单倍型频率、δ以及随机交配等假设。对于一对单倍型,我们考虑两种可能的相位,得到:
$P(\text{父母传递 } A , Y = 1| DH) = f(d) + \theta Z + \pi Z(1 - 2\theta)$
$P(\text{父母传递 } a , Y = 1| DH) = f(D) - \theta Z - \pi Z(1 - 2\theta)$
其中,Z = f(D) - f(d)。若θ = 1/2,则上述两个传递概率均为[f(D) + f(d)]/2;同样,若δ = 0,则π = 1/2,两个传递概率也都等于[f(D) + f(d)]/2。因此,当θ = 1/2或δ = 0或两者都成立时,τ = 1/2;只有当连锁和LD都存在时,τ ≠ 1/2。实际上,我们可以证明:
$P (\text{父母传递 } A | Y = 1, DH \text{ 父母}) = 1/2 + (\pi - 1/2)(1 - 2\theta)\Delta$
其中,$\Delta = [f(D) - f(d)]/[f(D) + f(d)]$。在实际应用中,对于不可忽略的δ和θ ≈ 0的情况,有:
$P (\text{父母传递 } A | Y = 1, DH \text{ 父母}) = 1/2 + (\pi - 1/2)\Delta$
3.5 TDT测试流程
graph LR
A[假设疾病等位基因D] --> B[定义参数θ、δ、τ]
B --> C[分析纯合子父母传递情况]
C --> D[分析双杂合子父母传递概率]
D --> E[证明TDT零假设成立条件]
综上所述,多点连锁分析、家庭设计的评分测试以及TDT测试在遗传分析中都具有重要的作用。多点连锁分析通过考虑重组和转移概率,能够更全面地分析基因组中的连锁关系;家庭设计的评分测试为基于家庭数据的遗传关联分析提供了有效的方法;TDT测试则巧妙地结合了连锁和关联的检测,为研究疾病与基因的关系提供了有力的工具。这些方法相互补充,共同推动了遗传学研究的发展。
4. 遗传分析方法的比较与应用场景
4.1 方法特点对比
| 方法 | 优点 | 缺点 | 应用场景 |
|---|---|---|---|
| 多点连锁分析 | 可利用所有标记数据,能预测未观察位点的共享情况,可检验DSL与全基因组位点的连锁关系 | 计算最大LOD分数复杂,受无法观察IBD状态和需侧翼标记数据的限制 | 研究复杂疾病的基因定位,当需要全面分析基因组连锁关系时使用 |
| 家庭设计的评分测试 | 对关于$f(Yi, \vert Xi, Pi, \gamma)$的假设具有稳健性,不需要控制父母基因型分布的干扰参数 | 干扰参数α在H0下无法通过最大似然法估计,二分性状估计$E(Yi_j)$有困难 | 基于家庭数据进行遗传关联分析,尤其是在需要控制群体结构影响时 |
| TDT测试 | 能同时检测连锁和关联,不依赖HWE和正式遗传模型 | 假设较多,依赖疾病等位基因D的存在和相关参数的设定 | 研究疾病与基因的连锁和关联,尤其是在标记与疾病等位基因存在连锁不平衡时 |
4.2 实际应用案例
在研究某种复杂疾病(如心血管疾病)的遗传机制时,我们可以综合运用这些方法。首先,使用多点连锁分析,通过收集大量家庭的遗传数据,利用Lander - Green算法计算多点似然,找出可能与疾病相关的染色体区域。然后,运用家庭设计的评分测试,以家庭为单位,分析后代基因型与疾病性状之间的关联,控制群体结构的影响。最后,使用TDT测试,验证标记与疾病等位基因之间的连锁和关联关系,确定关键的致病基因位点。
4.3 方法选择流程
graph LR
A[研究目标确定] --> B[是否关注全基因组连锁关系]
B -- 是 --> C[选择多点连锁分析]
B -- 否 --> D[是否基于家庭数据]
D -- 是 --> E[是否检测连锁和关联]
E -- 是 --> F[选择TDT测试]
E -- 否 --> G[选择家庭设计的评分测试]
D -- 否 --> H[考虑其他方法]
5. 遗传分析中的注意事项与挑战
5.1 数据质量问题
在遗传分析中,数据质量至关重要。可能存在的问题包括基因分型错误、缺失数据等。基因分型错误可能导致虚假的关联结果,而缺失数据会影响分析的准确性和功效。为了确保数据质量,需要进行严格的质量控制,如检查基因分型的一致性、去除低质量的样本和标记等。
5.2 模型假设的合理性
各种遗传分析方法都基于一定的模型假设,如多点连锁分析中的重组假设、评分测试中的表型独立假设、TDT测试中的疾病等位基因假设等。在实际应用中,需要仔细评估这些假设的合理性,因为不合理的假设可能导致错误的结论。如果发现假设不成立,可能需要对方法进行调整或采用更合适的模型。
5.3 样本量与功效
样本量的大小直接影响遗传分析的功效。如果样本量过小,可能无法检测到真实的关联或连锁关系;而样本量过大则会增加研究成本。因此,在进行研究设计时,需要根据研究目的和方法,合理估计所需的样本量,以确保研究具有足够的功效。
5.4 遗传分析挑战应对流程
graph LR
A[开始遗传分析] --> B[检查数据质量]
B -- 有问题 --> C[进行质量控制]
C --> D[评估模型假设]
B -- 无问题 --> D
D -- 不合理 --> E[调整方法或模型]
E --> F[估计样本量]
D -- 合理 --> F
F -- 不足 --> G[增加样本量]
G --> H[进行分析]
F -- 足够 --> H
6. 未来发展趋势
6.1 技术创新
随着基因测序技术的不断发展,如新一代测序技术的出现,我们能够获得更全面、更准确的遗传数据。这将为遗传分析提供更多的信息,有助于发现更多与疾病相关的基因和变异。同时,人工智能和机器学习技术的应用也将为遗传分析带来新的突破,如利用深度学习算法进行基因数据的分析和解读。
6.2 多组学整合
未来的遗传分析将不仅仅局限于基因数据,还将整合转录组学、蛋白质组学、代谢组学等多组学数据。通过综合分析不同层面的生物信息,我们可以更深入地了解疾病的发生机制,为个性化医疗提供更精准的依据。
6.3 跨学科合作
遗传分析是一个涉及生物学、统计学、计算机科学等多个学科的领域。未来,跨学科合作将变得更加重要。生物学家提供生物学知识和样本数据,统计学家开发和优化分析方法,计算机科学家提供高效的计算工具和算法。通过跨学科的合作,我们能够更好地解决遗传分析中的复杂问题,推动遗传学研究的发展。
6.4 未来发展趋势展望流程
graph LR
A[当前遗传分析现状] --> B[技术创新推动]
B --> C[多组学整合发展]
C --> D[跨学科合作加强]
D --> E[实现精准医学和个性化医疗]
综上所述,多点连锁分析、家庭设计的评分测试和TDT测试在遗传分析中各有优势和适用场景。在实际应用中,我们需要根据研究目的和数据特点选择合适的方法,并注意数据质量、模型假设、样本量等问题。随着技术的不断发展和多学科合作的加强,遗传分析将在未来取得更大的突破,为人类健康事业做出更大的贡献。
超级会员免费看
2919

被折叠的 条评论
为什么被折叠?



