一 、连锁与交换
要理解连锁不平衡,就得先了解连锁的概念。
1、连锁
连锁(Linkage)现象最先由Bateson和Punnett在1906年发现,他们发现在香豌豆中部分来自同一亲本的部分基因倾向于联系在一起,构成连锁群共同传递给下一代,即连锁遗传现象 。但是Bateson和Punnett并没有给出正确的解释,最早的解释是摩尔根在1910年对白眼果蝇的伴性遗传正式证实的。
2、交换
但是,连锁的基因间的连锁不是绝对的,其连锁群内的基因(亲组合 )并不会百分百的传递给下一代,因重组而出现重组合,该如何解释这种现象呢?
1909年Janssens提出交叉型假设(Chiasmatype Hypothesis),即在进行减数分裂的时候(Fig. 1),本该相互平行的同源染色体在部分位点间会出现交叉(Chiasma),导致同源染色体间的交叉点附近的片段发生交换(Crossing Over)。
Fig. 1:连锁交换
二、连锁不平衡
连锁不平衡(Linkage Disequilibrium,LD)就是指按照分离定律和自由组合定律,原本在子代中出现的特定分离比由于连锁和交换的存在,发生了偏离的现象(不平衡),所以LD的概念有连锁和不平衡两层含义。
但是,在连锁中出现的特定比例的重组合该如何解释?
一般两个连锁的locus有特定的连锁强度(或重组率,二者不是相同的概念,见Fig. 2),其决定了重组合和亲组合在子一代中出现的比例。
Fig. 2:重组率计算
三 、连锁强度
常用的表征连锁强度的统计量有三种。
1、 D D D
即连锁系数(Linkage coefficient),其定义为各基因型在子代中出现的理论频率与实际频率之间的偏差(差值),计算方法为:
D
=
P
理论值
(
A
B
)
−
P
实际值
(
A
B
)
=
P
(
A
)
⋅
P
(
B
)
−
P
实际值
(
A
B
)
\begin{aligned} D&=P_{理论值}(AB)-P_{实际值}(AB)\\ &=P(A)\cdot P(B)-P_{实际值}(AB) \end{aligned}
D=P理论值(AB)−P实际值(AB)=P(A)⋅P(B)−P实际值(AB)
{
D
=
0
,
位点独立
D
≠
0
,
位点连锁,且
D
的绝对值越大,连锁越强
\begin{cases} D=0,位点独立\\ D\not=0,位点连锁,且D的绝对值越大,连锁越强 \end{cases}
{D=0,位点独立D=0,位点连锁,且D的绝对值越大,连锁越强
使用上面的例子,可得各配子的基因频率(Fig. 3)。
Fig. 3:基因频率
使用
D
D
D的计算公式可得:
D
=
P
(
A
B
)
−
P
(
A
)
P
(
B
)
=
21279
44308
−
0.495
×
0.495
=
0.235
\begin{aligned} D&=P(AB)-P(A)P(B)\\ &=\frac{21279}{44308}-0.495\times0.495\\ &=0.235 \end{aligned}
D=P(AB)−P(A)P(B)=4430821279−0.495×0.495=0.235
等位基因A和B之间的连锁系数是0.235。
但是,
D
D
D 是基于特定的allele计算出来的连锁系数,在不同的allele之间无法进行比较。
2、 D ′ D' D′
即标准化的连锁系数(Scaled Linkage Coefficient),可用于不同基因间的比较。
∵
D
=
P
(
A
B
)
−
P
(
A
)
P
(
B
)
∴
{
P
(
A
B
)
=
D
+
P
(
A
)
P
(
B
)
P
(
A
b
)
=
P
(
A
)
P
(
b
)
−
D
P
(
a
B
)
=
P
(
a
)
P
(
B
)
−
D
P
(
a
b
)
=
D
+
P
(
a
)
P
(
b
)
\begin{aligned} &\because D=P(AB)-P(A)P(B)\\ &\therefore\begin{cases} P(AB)=D+P(A)P(B)\\ P(Ab)=P(A)P(b)-D\\ P(aB)=P(a)P(B)-D\\ P(ab)=D+P(a)P(b) \end{cases} \end{aligned}
∵D=P(AB)−P(A)P(B)∴⎩
⎨
⎧P(AB)=D+P(A)P(B)P(Ab)=P(A)P(b)−DP(aB)=P(a)P(B)−DP(ab)=D+P(a)P(b)
使用棋盘法列联:
B | b | |
---|---|---|
A | D + P ( A ) P ( B ) D+P(A)P(B) D+P(A)P(B) | P ( A ) P ( b ) − D P(A)P(b)-D P(A)P(b)−D |
a | P ( a ) P ( B ) − D P(a)P(B)-D P(a)P(B)−D | D + P ( a ) P ( b ) D+P(a)P(b) D+P(a)P(b) |
∵
\because
∵ 理论上,各基因型出现的概率必定大于等于0
∴
{
D
+
P
(
A
)
P
(
B
)
⩾
0
P
(
A
)
P
(
b
)
−
D
⩾
0
P
(
a
)
P
(
B
)
−
D
⩾
0
D
+
P
(
a
)
P
(
b
)
⩾
0
\therefore \begin{cases} D+P(A)P(B)\geqslant0\\ P(A)P(b)-D\geqslant0\\ P(a)P(B)-D\geqslant0\\ D+P(a)P(b)\geqslant0\\ \end{cases}
∴⎩
⎨
⎧D+P(A)P(B)⩾0P(A)P(b)−D⩾0P(a)P(B)−D⩾0D+P(a)P(b)⩾0
解得:
m
a
x
[
−
P
(
A
)
P
(
B
)
,
−
P
(
a
)
P
(
b
)
]
<
D
<
m
i
n
[
P
(
A
)
P
(
b
)
,
P
(
a
)
P
(
B
)
]
max[-P(A)P(B),-P(a)P(b)]<D<min[P(A)P(b),P(a)P(B)]
max[−P(A)P(B),−P(a)P(b)]<D<min[P(A)P(b),P(a)P(B)]
即
D
D
D 的最大值
D
m
a
x
D_{max}
Dmax 有:
{
D
m
a
x
=
m
i
n
[
P
(
A
)
P
(
B
)
,
P
(
a
)
P
(
b
)
]
,
D
<
0
D
m
a
x
=
m
i
n
[
P
(
A
)
P
(
b
)
,
P
(
a
)
P
(
B
)
]
,
D
>
0
\begin{cases} D_{max}=min[P(A)P(B),P(a)P(b)],D<0\\ D_{max}=min[P(A)P(b),P(a)P(B)],D>0 \end{cases}
{Dmax=min[P(A)P(B),P(a)P(b)],D<0Dmax=min[P(A)P(b),P(a)P(B)],D>0
使用
D
m
a
x
D_{max}
Dmax 标准化
D
D
D 得
D
′
D'
D′ 的计算公式:
D
′
=
{
D
m
i
n
[
P
(
A
)
P
(
B
)
,
P
(
a
)
P
(
b
)
]
,
D
<
0
D
m
i
n
[
P
(
A
)
P
(
b
)
,
P
(
a
)
P
(
B
)
]
,
D
>
0
D'= \begin{cases} \frac{D}{min[P(A)P(B),P(a)P(b)]},D<0\\ \frac{D}{min[P(A)P(b),P(a)P(B)]},D>0 \end{cases}
D′={min[P(A)P(B),P(a)P(b)]D,D<0min[P(A)P(b),P(a)P(B)]D,D>0
{
D
′
=
1
,
完全连锁
D
′
=
0
,
独立遗传
\begin{cases} D'=1,完全连锁\\ D'=0,独立遗传 \end{cases}
{D′=1,完全连锁D′=0,独立遗传
使用上面的例子:
∵
D
>
0
,
且
m
i
n
[
P
(
A
)
P
(
b
)
,
P
(
a
)
P
(
B
)
]
=
0.250
\because D>0,且min[P(A)P(b),P(a)P(B)]=0.250
∵D>0,且min[P(A)P(b),P(a)P(B)]=0.250
D
′
=
0.235
0.250
=
0.94
D'=\frac{0.235}{0.250}=0.94
D′=0.2500.235=0.94
3、 r 2 r^2 r2
另一个更常用的标准化连锁系数是
r
2
r^2
r2,即Correlation coefficient between alleles:
计算公式为:
r
2
=
D
2
P
(
A
)
P
(
a
)
P
(
B
)
P
(
b
)
r^2=\frac{D^2}{P(A)P(a)P(B)P(b)}
r2=P(A)P(a)P(B)P(b)D2
{
r
2
=
0
,
独立遗传
r
2
=
1
,
完全连锁
\begin{cases} r^2=0,独立遗传\\ r^2=1,完全连锁 \end{cases}
{r2=0,独立遗传r2=1,完全连锁
四、LD decay plot
连锁不平衡衰变图(LD decay plot)是群体遗传学分析中极为常用的分析方法,其通过使用位点间的距离为横轴,
r
2
r^2
r2 为纵轴,直观的反应各亚群之间连锁强度的差异。
LD decay依据的基本假设是位点间的连锁强度随位点之间的距离逐渐衰减,通过从给定位点开始依次向后迭代计算各位点之间的连锁强度 (
r
2
r^2
r2),从而绘制LD decay plot(Fig. 4)。
Fig. 4: LD decay plot绘制原理
从图(Fig. 4)中可以看出,衰变速度:
group1
<
group2
<
group3
\text{group1}<\text{group2}<\text{group3}
group1<group2<group3
连锁强度相对恒定后的大小:
group1
>
group2
>
group3
\text{group1}>\text{group2}>\text{group3}
group1>group2>group3
说明group1在三个亚群中的连锁系数是最大的,group3最小。
Ending!