前向概率和后向概率-优快云博客

1. 前向概率和后向概率的定义

前向概率 $\alpha_t(i)$ ：
表示从初始状态 $q_0$ 出发，经过 $t$ 步达到状态 $q_i$ ，并且生成观测序列 $O_1, O_2, \dots, O_t$ 的概率。
$\alpha_t(i) = P(O_1, O_2, \dots, O_t, q_t = i | \lambda)$
后向概率 $\beta_t(i)$ ：
表示从状态 $q_i$ 出发，经过 $t + 1$ 到最终状态 $q_F$ ，生成剩余观测序列 $O_{t+1}, O_{t+2}, \dots, O_T$ 的概率。
$\beta_t(i) = P(O_{t+1}, O_{t+2}, \dots, O_T | q_t = i, \lambda)$

核心区别：

前向概率关注从初始到当前时刻的路径。
后向概率关注从当前时刻到序列末尾的路径。

2. 为什么 $\alpha_T(q_F)$ 和 $\beta_1(0)$ 都可以计算 $P(O|\lambda)$ ？

$P(O|\lambda)$ 是观察序列 $O$ 在给定模型 $\lambda$ 下生成的总概率。
两种计算方式：
1. 利用 前向概率：
  从初始状态 $q_0$ 出发，生成完整序列 $O_1, O_2, \dots, O_T$ ，并达到某个终点 $q_F$ 。
  $P(O|\lambda) = \sum_{i=1}^N \alpha_T(i)$
  $\alpha_t(j) = \sum_{i=1}^N \alpha_{t-1}(i) a_{ij} b_j(O_t)$
2. 利用 后向概率：
  假设初始状态是 $q_0$ ，生成完整序列 $O_1, O_2, \dots, O_T$ 。
  $P(O|\lambda) = \sum_{i=1}^N \pi_i b_i(O_1) \beta_1(i)$

两者的本质是相同的，只是前向概率计算是“累积到终点”，而后向概率是“从终点倒推”。

3. 前向概率和后向概率为何不同？

开始和结束的时间点不同：
- 前向概率从时间 $t = 1$ 开始计算。
- 后向概率从时间 $t = T$ 开始倒推。
计算方向不同：
- 前向概率是从初始状态开始，依次考虑每一步路径。
- 后向概率是从终点开始，倒推每一步的贡献。
公式差异：
- 前向概率的递归公式：
  $\alpha_{t+1}(j) = \sum_{i=1}^N \alpha_t(i) a_{ij} b_j(O_{t+1})$
- 后向概率的递归公式：
  $\beta_t(i) = \sum_{j=1}^N a_{ij} b_j(O_{t+1}) \beta_{t+1}(j)$
区别：前向概率在计算时依赖上一时刻的状态概率 $\alpha_t(i)$ ，后向概率则依赖下一时刻的状态概率 $\beta_{t+1}(j)$ 。

解释公式中的 $\alpha_T(q_F)$ 和 $\beta_1(0)$

前向概率 $\alpha_T(q_F)$ ：
表示从初始状态 $q_0$ 出发，生成完整序列 $O_1, O_2, \dots, O_T$ 并达到终点状态 $q_F$ 的概率。
后向概率 $\beta_1(0)$ ：
表示从初始状态 $q_0$ 出发，生成完整序列 $O_1, O_2, \dots, O_T$ 的概率。

总结：两者的意义是相同的，都是计算 $P(O|\lambda)$ ，但在实际操作中，通常会结合前向概率和后向概率的递归公式，避免单纯使用一种算法计算整个序列的概率。

问题背景

我们有一个简单的隐马尔可夫模型（HMM）：

隐藏状态： $q_1, q_2$ （2 个状态）。
观测序列： $O = \{o_1, o_2, o_3\}$ ，长度为 3。
模型参数：
- 初始概率： $\pi = [\pi_1=0.6, \pi_2=0.4]$ 。
- 转移矩阵：
  $\begin{bmatrix} a_{11}=0.7 & a_{12}=0.3 \\ a_{21}=0.4 & a_{22}=0.6 \end{bmatrix}$
- 发射概率矩阵：
  $\begin{bmatrix} b_1(o_1)=0.5 & b_1(o_2)=0.4 & b_1(o_3)=0.1 \\ b_2(o_1)=0.1 & b_2(o_2)=0.3 & b_2(o_3)=0.6 \end{bmatrix}$

现在，我们通过后向算法计算 $\beta_t(i)$ 。

第一步：后向算法的公式

后向概率递推公式：
$\beta_t(i) = \sum_{j=1}^N a_{ij} b_j(O_{t+1}) \beta_{t+1}(j)$

$\beta_t(i)$ ：时刻 $t$ 状态为 $q_i$ 时，从 $t + 1$ 到 $T$ 生成剩余观测序列的概率。
$a_{ij}$ ：从状态 $q_i$ 转移到 $q_j$ 的概率。
$b_j(O_{t+1})$ ：状态 $q_j$ 生成 $t + 1$ 时刻观测值的概率。
$\beta_{t+1}(j)$ ：时刻 $t + 1$ 的后向概率。

第二步：初始化（最后时刻 $T = 3$ ）

根据后向算法的初始条件：
$\beta_3(i) = 1 \quad \forall i$
即在最后一个时刻，每个状态的后向概率都是 1（因为没有剩余观测值）。

因此：
$\beta_3(q_1) = 1, \quad \beta_3(q_2) = 1$

第三步：递推（时刻 $t = 2$ ）

根据公式：
$\beta_2(i) = \sum_{j=1}^2 a_{ij} b_j(O_3) \beta_3(j)$

$O_3 = o_3$ 是观测序列的最后一个值。
发射概率： $b_1(o_3) = 0.1, \, b_2(o_3) = 0.6$ 。
$\beta_3(j) = 1$ （前一步初始化的结果）。

对于 $q_1$ ：
$\beta_2(q_1) = a_{11} \cdot b_1(o_3) \cdot \beta_3(q_1) + a_{12} \cdot b_2(o_3) \cdot \beta_3(q_2)$
$\beta_2(q_1) = 0.7 \cdot 0.1 \cdot 1 + 0.3 \cdot 0.6 \cdot 1 = 0.07 + 0.18 = 0.25$

对于 $q_2$ ：
$\beta_2(q_2) = a_{21} \cdot b_1(o_3) \cdot \beta_3(q_1) + a_{22} \cdot b_2(o_3) \cdot \beta_3(q_2)$
$\beta_2(q_2) = 0.4 \cdot 0.1 \cdot 1 + 0.6 \cdot 0.6 \cdot 1 = 0.04 + 0.36 = 0.40$

结果：
$\beta_2(q_1) = 0.25, \quad \beta_2(q_2) = 0.40$

第四步：递推（时刻 $t = 1$ ）

根据公式：
$\beta_1(i) = \sum_{j=1}^2 a_{ij} b_j(O_2) \beta_2(j)$

$O_2 = o_2$ 是第二个观测值。
发射概率： $b_1(o_2) = 0.4, \, b_2(o_2) = 0.3$ 。
$\beta_2(q_1) = 0.25, \, \beta_2(q_2) = 0.40$ （前一步计算结果）。

对于 $q_1$ ：
$\beta_1(q_1) = a_{11} \cdot b_1(o_2) \cdot \beta_2(q_1) + a_{12} \cdot b_2(o_2) \cdot \beta_2(q_2)$
$\beta_1(q_1) = 0.7 \cdot 0.4 \cdot 0.25 + 0.3 \cdot 0.3 \cdot 0.40$
$\beta_1(q_1) = 0.07 + 0.036 = 0.106$

对于 $q_2$ ：
$\beta_1(q_2) = a_{21} \cdot b_1(o_2) \cdot \beta_2(q_1) + a_{22} \cdot b_2(o_2) \cdot \beta_2(q_2)$
$\beta_1(q_2) = 0.4 \cdot 0.4 \cdot 0.25 + 0.6 \cdot 0.3 \cdot 0.40$
$\beta_1(q_2) = 0.04 + 0.072 = 0.112$

结果：
$\beta_1(q_1) = 0.106, \quad \beta_1(q_2) = 0.112$

第五步：验证 $P(O|\lambda)$

使用后向概率公式计算：
$P(O|\lambda) = \sum_{i=1}^2 \pi_i b_i(O_1) \beta_1(i)$

初始概率： $\pi_1 = 0.6, \pi_2 = 0.4$ 。
发射概率： $b_1(o_1) = 0.5, \, b_2(o_1) = 0.1$ 。
后向概率： $\beta_1(q_1) = 0.106, \beta_1(q_2) = 0.112$ 。

代入计算：
$P(O|\lambda) = 0.6 \cdot 0.5 \cdot 0.106 + 0.4 \cdot 0.1 \cdot 0.112$
$P(O|\lambda) = 0.0318 + 0.00448 = 0.03628$

1. 两种不同的后向算法初始化条件

(1) 常见的后向算法初始化条件

在通常的后向算法中，我们的初始化条件是：
$\beta_T(i) = 1 \quad \forall i$
这是因为在最后一个时刻 $T$ ，没有更多的观测值需要生成，后向概率设为 1 表示“从这里到序列结束”的概率为 1。

(2) 其他公式的初始化条件

公式：
$\beta_T(i) = a_{i,F}, \quad 1 \leq i \leq N$
这表示，在最后时刻 $T$ ，每个状态的后向概率不仅仅是 1，而是还要考虑从当前状态 $q_i$ 到某个“终止状态” $q_F$ 的转移概率 $a_{i,F}$ 。这种设置适用于显式定义了“终止状态”的情况。

2. 为什么两种初始化条件会不同？

两种初始化条件的区别在于，是否需要显式考虑一个“终止状态” $q_F$ ：

常见初始化（设为 1）：
不需要终止状态，即模型默认序列的末尾就是自然的结束点。这种情况下，最后一个时刻的后向概率 $\beta_T(i)$ 直接初始化为 1，表示没有剩余的观测值。
带终止状态的初始化：
明确设置了一个“终止状态” $q_F$ ，并且最后时刻 $T$ 的后向概率还需要包括从当前状态 $q_i$ 到终止状态 $q_F$ 的转移概率 $a_{i,F}$ 。

如果使用常见的后向算法初始化条件 $\beta_T(i) = 1$ 并且有两个状态 $q_1$ 和 $q_2$ ，后向概率是否应该是 $1/2$ 的问题可以通过以下详细分析来解答。

1. 初始化条件 $\beta_T(i) = 1$ 的含义

$\beta_T(i) = 1$ 的含义是：在序列的最后一个时刻 $T$ ，无论当前状态是什么，生成剩余观测序列的概率都设为 1。
这种初始化方法的目的是简化后向算法的计算，因为最后一个时刻没有后续观测值需要生成。

注意：

在这种初始化条件下，后向概率没有直接考虑隐藏状态的分布是否需要归一化，因为后向算法本身会在整个递归过程中对所有状态的概率进行加权和归一化。因此，在最后时刻，直接设置 $\beta_T(i) = 1$ 是完全合理的，不需要进行额外的处理。

2. 为什么不是 $1/2$ ？

如果简单地将两个状态的后向概率设置为 $\beta_T(q_1) = 1/2$ 和 $\beta_T(q_2) = 1/2$ ，会引入不必要的归一化操作。后向算法的本质是通过递归累加路径概率，而不是直接计算每个状态的均匀分布。
在后向算法中， $\beta_T(i)$ 的初始值并不是一个概率分布，而是一个中间量，用于递归计算每个时刻的后向概率。