1. γ t ( i ) \gamma_t(i) γt(i) 的定义
γ t ( i ) = P ( q t = i ∣ O , λ ) \gamma_t(i) = P(q_t = i | O, \lambda) γt(i)=P(qt=i∣O,λ)
-
意义:
- γ t ( i ) \gamma_t(i) γt(i) 表示在给定观测序列 O O O 和模型参数 λ \lambda λ 的条件下,在时刻 t t t 时隐藏状态为 i i i 的概率。
- 它是一个边缘概率(Marginal Probability),表示状态 i i i 在时刻 t t t 的“期望权重”。
-
- 分子:从初始到 t t t 的路径概率(前向概率 α t ( i ) \alpha_t(i) αt(i)),以及从 t + 1 t+1 t+1 到结束的路径概率(后向概率 β t ( i ) \beta_t(i) βt(i)),两者相乘表示完整路径。
- 分母: P ( O ∣ λ ) P(O|\lambda) P(O∣λ),用于归一化观测序列的总概率。
2. ξ t ( i , j ) \xi_t(i, j) ξt(i,j) 的定义
ξ t ( i , j ) = P ( q t = i , q t + 1 = j ∣ O , λ ) \xi_t(i, j) = P(q_t = i, q_{t+1} = j | O, \lambda) ξt(i,j)=P(qt=i,qt+1=j∣O,λ)
-
意义:
- ξ t ( i , j ) \xi_t(i, j) ξt(i,j) 表示在给定观测序列 O O O 和模型参数 λ \lambda λ 的条件下,在时刻 t t t 状态从 i i i 转移到 j j j 的概率。
- 它是一个联合概率(Joint Probability),描述了两个相邻时刻状态的联合分布。
-
计算公式:
ξ t ( i , j ) = α t ( i ) a i j b j ( O t + 1 ) β t + 1 ( j ) P ( O ∣ λ ) \xi_t(i, j) = \frac{\alpha_t(i) a_{ij} b_j(O_{t+1}) \beta_{t+1}(j)}{P(O|\lambda)} ξt(i,j)=P(O∣λ)αt(i)aijbj(Ot+1)βt+1(j)- 分子:
- α t ( i ) \alpha_t(i) αt(i):时刻 t t t 状态为 i i i 的路径概率。
- a i j a_{ij} aij:从状态 i i i 转移到状态 j j j 的概率。
- b j ( O t + 1 ) b_j(O_{t+1}) bj(Ot+1):状态 j j j 生成观测值 O t + 1 O_{t+1} Ot+1 的概率。
- β t + 1 ( j ) \beta_{t+1}(j) βt+1(j):时刻 t + 1 t+1 t+1 开始到结束的路径概率。
- 分母: P ( O ∣ λ ) P(O|\lambda) P(O∣λ),用于归一化观测序列的总概率。
- 分子:
3. γ t ( i ) \gamma_t(i) γt(i) 和 ∑ j = 1 N ξ t ( i , j ) \sum_{j=1}^N \xi_t(i, j) ∑j=1Nξt(i,j) 的关系
∑ j = 1 N ξ t ( i , j ) \sum_{j=1}^N \xi_t(i, j) ∑j=1Nξt(i,j) 的计算
通过定义:
∑
j
=
1
N
ξ
t
(
i
,
j
)
=
∑
j
=
1
N
α
t
(
i
)
a
i
j
b
j
(
O
t
+
1
)
β
t
+
1
(
j
)
P
(
O
∣
λ
)
\sum_{j=1}^N \xi_t(i, j) = \sum_{j=1}^N \frac{\alpha_t(i) a_{ij} b_j(O_{t+1}) \beta_{t+1}(j)}{P(O|\lambda)}
j=1∑Nξt(i,j)=j=1∑NP(O∣λ)αt(i)aijbj(Ot+1)βt+1(j)
- α t ( i ) \alpha_t(i) αt(i) 是固定的,因为它只依赖状态 i i i。
- P ( O ∣ λ ) P(O|\lambda) P(O∣λ) 是常数,因为它是观测序列的总概率。
将常量提取到求和外部:
∑
j
=
1
N
ξ
t
(
i
,
j
)
=
α
t
(
i
)
P
(
O
∣
λ
)
∑
j
=
1
N
a
i
j
b
j
(
O
t
+
1
)
β
t
+
1
(
j
)
\sum_{j=1}^N \xi_t(i, j) = \frac{\alpha_t(i)}{P(O|\lambda)} \sum_{j=1}^N a_{ij} b_j(O_{t+1}) \beta_{t+1}(j)
j=1∑Nξt(i,j)=P(O∣λ)αt(i)j=1∑Naijbj(Ot+1)βt+1(j)
注意到:
∑
j
=
1
N
a
i
j
b
j
(
O
t
+
1
)
β
t
+
1
(
j
)
\sum_{j=1}^N a_{ij} b_j(O_{t+1}) \beta_{t+1}(j)
j=1∑Naijbj(Ot+1)βt+1(j)
表示从状态
i
i
i 出发的所有可能转移路径的总概率。
因此:
∑
j
=
1
N
ξ
t
(
i
,
j
)
=
α
t
(
i
)
β
t
(
i
)
P
(
O
∣
λ
)
\sum_{j=1}^N \xi_t(i, j) = \frac{\alpha_t(i) \beta_t(i)}{P(O|\lambda)}
j=1∑Nξt(i,j)=P(O∣λ)αt(i)βt(i)
和 γ t ( i ) \gamma_t(i) γt(i) 对比
根据
γ
t
(
i
)
\gamma_t(i)
γt(i) 的定义:
γ
t
(
i
)
=
α
t
(
i
)
β
t
(
i
)
P
(
O
∣
λ
)
\gamma_t(i) = \frac{\alpha_t(i) \beta_t(i)}{P(O|\lambda)}
γt(i)=P(O∣λ)αt(i)βt(i)
两者完全相等:
γ
t
(
i
)
=
∑
j
=
1
N
ξ
t
(
i
,
j
)
\gamma_t(i) = \sum_{j=1}^N \xi_t(i, j)
γt(i)=j=1∑Nξt(i,j)
4. 直观理解
-
γ t ( i ) \gamma_t(i) γt(i):
- 它是状态 i i i 在时刻 t t t 出现的总概率。
- 无需考虑具体转移到哪个状态,只看状态 i i i 本身。
-
ξ t ( i , j ) \xi_t(i, j) ξt(i,j):
- 它是状态 i i i 在时刻 t t t 出现,并在下一时刻转移到状态 j j j 的联合概率。
- ∑ j = 1 N ξ t ( i , j ) \sum_{j=1}^N \xi_t(i, j) ∑j=1Nξt(i,j) 把所有可能的目标状态 j j j 加总,等价于状态 i i i 本身的总概率。
5. 总结
- γ t ( i ) \gamma_t(i) γt(i) 和 ∑ j = 1 N ξ t ( i , j ) \sum_{j=1}^N \xi_t(i, j) ∑j=1Nξt(i,j) 相等。
- γ t ( i ) \gamma_t(i) γt(i) 是边缘概率,描述状态 i i i 的总体情况。
- ξ t ( i , j ) \xi_t(i, j) ξt(i,j) 是联合概率,通过加总 j j j 消除了具体转移的影响,从而等价于 γ t ( i ) \gamma_t(i) γt(i)。