MCMC过程_马尔可夫链雨伞问题-优快云博客

本文链接：https://blog.youkuaiyun.com/qq_39306047/article/details/145206882

MCMC
好的，让我们通过一个具体的例子来说明马尔可夫链模型的计算过程。假设我们有一个简单的天气模型，天气状态可以是“晴天”（Sunny）、“多云”（Cloudy）或“雨天”（Rainy）。我们有以下参数：

转移概率矩阵（Transition Probability Matrix）
[
A = \begin{bmatrix}
0.7 & 0.2 & 0.1
0.3 & 0.4 & 0.3
0.2 & 0.3 & 0.5
\end{bmatrix}
]
其中，( a_{ij} ) 表示从状态 ( i ) 转移到状态 ( j ) 的概率。例如，( a_{12} = 0.2 ) 表示从“晴天”转移到“多云”的概率是 20%。
发射概率矩阵（Emission Probability Matrix）
假设观测值是“携带雨伞”（Umbrella）或“不携带雨伞”（No Umbrella）。发射概率矩阵 ( B ) 如下：
[
B = \begin{bmatrix}
0.1 & 0.9
0.3 & 0.7
0.8 & 0.2
\end{bmatrix}
]
其中，( b_i(o) ) 表示在状态 ( i ) 下观测到观测值 ( o ) 的概率。例如，( b_3(\text{Umbrella}) = 0.8 ) 表示在“雨天”携带雨伞的概率是 80%。
初始状态概率向量（Initial State Probability Vector）
[
\pi = \begin{bmatrix}
0.6
0.3
0.1
\end{bmatrix}
]
表示初始状态为“晴天”、“多云”、“雨天”的概率分别为 60%、30%、10%。
观测序列
假设观测序列为：“携带雨伞”、“不携带雨伞”、“携带雨伞”，即 ( O = [U, NU, U] )。
前向算法计算 ( P(O) )
我们使用前向算法来计算观测序列的概率 ( P(O) )。
初始化：
[
\alpha_1(1) = \pi_1 b_1(U) = 0.6 \times 0.1 = 0.06
]
[
\alpha_1(2) = \pi_2 b_2(U) = 0.3 \times 0.3 = 0.09
]
[
\alpha_1(3) = \pi_3 b_3(U) = 0.1 \times 0.8 = 0.08
]
第二步（( t = 2 )）：
[
\alpha_2(1) = (\alpha_1(1) a_{11} + \alpha_1(2) a_{21} + \alpha_1(3) a_{31}) b_1(NU) = (0.06 \times 0.7 + 0.09 \times 0.3 + 0.08 \times 0.2) \times 0.9 = (0.042 + 0.027 + 0.016) \times 0.9 = 0.085 \times 0.9 = 0.0765
]
[
\alpha_2(2) = (\alpha_1(1) a_{12} + \alpha_1(2) a_{22} + \alpha_1(3) a_{32}) b_2(NU) = (0.06 \times 0.2 + 0.09 \times 0.4 + 0.08 \times 0.3) \times 0.7 = (0.012 + 0.036 + 0.024) \times 0.7 = 0.072 \times 0.7 = 0.0504
]
[
\alpha_2(3) = (\alpha_1(1) a_{13} + \alpha_1(2) a_{23} + \alpha_1(3) a_{33}) b_3(NU) = (0.06 \times 0.1 + 0.09 \times 0.3 + 0.08 \times 0.5) \times 0.2 = (0.006 + 0.027 + 0.04) \times 0.2 = 0.073 \times 0.2 = 0.0146
]
第三步（( t = 3 )）：
[
\alpha_3(1) = (\alpha_2(1) a_{11} + \alpha_2(2) a_{21} + \alpha_2(3) a_{31}) b_1(U) = (0.0765 \times 0.7 + 0.0504 \times 0.3 + 0.0146 \times 0.2) \times 0.1 = (0.05355 + 0.01512 + 0.00292) \times 0.1 = 0.07159 \times 0.1 = 0.007159
]
[
\alpha_3(2) = (\alpha_2(1) a_{12} + \alpha_2(2) a_{22} + \alpha_2(3) a_{32}) b_2(U) = (0.0765 \times 0.2 + 0.0504 \times 0.4 + 0.0146 \times 0.3) \times 0.3 = (0.0153 + 0.02016 + 0.00438) \times 0.3 = 0.04984 \times 0.3 = 0.014952
]
[
\alpha_3(3) = (\alpha_2(1) a_{13} + \alpha_2(2) a_{23} + \alpha_2(3) a_{33}) b_3(U) = (0.0765 \times 0.1 + 0.0504 \times 0.3 + 0.0146 \times 0.5) \times 0.8 = (0.00765 + 0.01512 + 0.0073) \times 0.8 = 0.03007 \times 0.8 = 0.024056
]
计算 ( P(O) )：
[
P(O) = \alpha_3(1) + \alpha_3(2) + \alpha_3(3) = 0.007159 + 0.014952 + 0.024056 = 0.046167
]
所以，观测序列“携带雨伞”、“不携带雨伞”、“携带雨伞”的概率约为 4.6167%。
这个例子展示了如何使用马尔可夫链模型的前向算法来计算观测序列的概率。通过类似的步骤，我们可以使用后向算法和维特比算法来进行其他类型的计算和推断。

非常好！你通过一个具体的天气模型和观测序列，详细展示了如何使用前向算法计算观测序列的概率 ( P(O) )。以下是对你计算过程的总结和补充说明：

1. 问题描述

状态空间：晴天（S）、多云（C）、雨天（R）。
观测空间：携带雨伞（U）、不携带雨伞（NU）。
转移概率矩阵 ( A )：
[
A = \begin{bmatrix}
0.7 & 0.2 & 0.1 \
0.3 & 0.4 & 0.3 \
0.2 & 0.3 & 0.5 \
\end{bmatrix}
]
发射概率矩阵 ( B )：
[
B = \begin{bmatrix}
0.1 & 0.9 \
0.3 & 0.7 \
0.8 & 0.2 \
\end{bmatrix}
]
初始状态概率向量 ( \pi )：
[
\pi = \begin{bmatrix}
0.6 \
0.3 \
0.1 \
\end{bmatrix}
]
观测序列：( O = [U, NU, U] )。

2. 前向算法步骤

前向算法的目标是计算观测序列的概率 ( P(O) )。其核心思想是通过动态规划逐步计算每个时间步的前向概率 ( \alpha_t(i) )，即第 ( t ) 时刻处于状态 ( i ) 并观测到前 ( t ) 个观测值的联合概率。

(1) 初始化（( t = 1 )）

计算初始时刻的前向概率：
[
\alpha_1(i) = \pi_i \cdot b_i(O_1)
]

( \alpha_1(1) = 0.6 \times 0.1 = 0.06 )（晴天且携带雨伞）
( \alpha_1(2) = 0.3 \times 0.3 = 0.09 )（多云且携带雨伞）
( \alpha_1(3) = 0.1 \times 0.8 = 0.08 )（雨天且携带雨伞）

(2) 递推（( t = 2 ) 和 ( t = 3 )）

对于每个后续时间步 ( t )，计算：
[
\alpha_t(j) = \left( \sum_{i=1}^N \alpha_{t-1}(i) \cdot a_{ij} \right) \cdot b_j(O_t)
]
其中：

( N ) 是状态数（这里是 3）。
( a_{ij} ) 是从状态 ( i ) 转移到状态 ( j ) 的概率。
( b_j(O_t) ) 是在状态 ( j ) 下观测到 ( O_t ) 的概率。

( t = 2 ) 的计算

( \alpha_2(1) = (0.06 \times 0.7 + 0.09 \times 0.3 + 0.08 \times 0.2) \times 0.9 = 0.0765 )
( \alpha_2(2) = (0.06 \times 0.2 + 0.09 \times 0.4 + 0.08 \times 0.3) \times 0.7 = 0.0504 )
( \alpha_2(3) = (0.06 \times 0.1 + 0.09 \times 0.3 + 0.08 \times 0.5) \times 0.2 = 0.0146 )

( t = 3 ) 的计算

( \alpha_3(1) = (0.0765 \times 0.7 + 0.0504 \times 0.3 + 0.0146 \times 0.2) \times 0.1 = 0.007159 )
( \alpha_3(2) = (0.0765 \times 0.2 + 0.0504 \times 0.4 + 0.0146 \times 0.3) \times 0.3 = 0.014952 )
( \alpha_3(3) = (0.0765 \times 0.1 + 0.0504 \times 0.3 + 0.0146 \times 0.5) \times 0.8 = 0.024056 )

(3) 终止

观测序列的概率 ( P(O) ) 是最终时刻所有状态的前向概率之和：
[
P(O) = \sum_{i=1}^N \alpha_T(i)
]
对于 ( T = 3 )：
[
P(O) = \alpha_3(1) + \alpha_3(2) + \alpha_3(3) = 0.007159 + 0.014952 + 0.024056 = 0.046167
]

3. 结果

观测序列 ( O = [U, NU, U] ) 的概率约为 4.6167%。

4. 补充说明

前向算法的意义：通过动态规划避免了直接枚举所有可能状态序列的指数复杂度，将计算复杂度降低到 ( O(T \cdot N^2) )，其中 ( T ) 是观测序列长度，( N ) 是状态数。
后向算法：与前向算法类似，但从后向前计算，用于解决其他问题（如参数学习）。
维特比算法：用于找到最可能的状态序列（解码问题），其结构与前向算法类似，但使用最大化操作而非求和。

通过这个例子，我们清晰地展示了如何使用前向算法计算观测序列的概率。如果你有其他问题或需要进一步探讨，请随时告诉我！

好的！我们用一个具体的数字例子来说明解码器如何通过掩码机制一次性计算所有位置的输出，同时保留自回归生成的能力。

1. 问题设定

假设我们有一个目标序列（解码器输入）为 ( Y = [y_1, y_2, y_3] )，分别对应三个词。解码器的任务是生成输出序列。

在自注意力机制中，解码器需要计算每个位置的输出，但不能“看到”未来的词。掩码机制通过掩码矩阵 ( M ) 来实现这一点。

2. 掩码矩阵 ( M )

掩码矩阵 ( M ) 是一个上三角矩阵，未来位置的值被设置为负无穷（(-\infty)），当前和过去位置的值设置为 0。例如，对于长度为 3 的序列，掩码矩阵 ( M ) 如下：

[
M = \begin{bmatrix}
0 & -\infty & -\infty \
0 & 0 & -\infty \
0 & 0 & 0
\end{bmatrix}
]

3. 自注意力计算过程

假设解码器的输入 ( Y = [y_1, y_2, y_3] ) 经过线性变换后，得到查询矩阵 ( Q )、键矩阵 ( K ) 和值矩阵 ( V )：

[
Q = \begin{bmatrix}
1 & 0 \
2 & 1 \
3 & 2
\end{bmatrix}, \quad
K = \begin{bmatrix}
1 & 0 \
2 & 1 \
3 & 2
\end{bmatrix}, \quad
V = \begin{bmatrix}
1 & 0 \
0 & 1 \
1 & 1
\end{bmatrix}
]

3.1 计算注意力得分

注意力得分矩阵 ( S ) 通过 ( Q ) 和 ( K ) 的点积计算：

[
S = QK^T = \begin{bmatrix}
1 & 0 \
2 & 1 \
3 & 2
\end{bmatrix} \begin{bmatrix}
1 & 2 & 3 \
0 & 1 & 2
\end{bmatrix} = \begin{bmatrix}
1 \cdot 1 + 0 \cdot 0 & 1 \cdot 2 + 0 \cdot 1 & 1 \cdot 3 + 0 \cdot 2 \
2 \cdot 1 + 1 \cdot 0 & 2 \cdot 2 + 1 \cdot 1 & 2 \cdot 3 + 1 \cdot 2 \
3 \cdot 1 + 2 \cdot 0 & 3 \cdot 2 + 2 \cdot 1 & 3 \cdot 3 + 2 \cdot 2
\end{bmatrix}
]

计算结果为：

[
S = \begin{bmatrix}
1 & 2 & 3 \
2 & 5 & 8 \
3 & 8 & 13
\end{bmatrix}
]

3.2 加入掩码矩阵 ( M )

将掩码矩阵 ( M ) 加到注意力得分矩阵 ( S ) 上：

[
S_{\text{masked}} = S + M = \begin{bmatrix}
1 & 2 & 3 \
2 & 5 & 8 \
3 & 8 & 13
\end{bmatrix} + \begin{bmatrix}
0 & -\infty & -\infty \
0 & 0 & -\infty \
0 & 0 & 0
\end{bmatrix}
]

结果如下：

[
S_{\text{masked}} = \begin{bmatrix}
1 & -\infty & -\infty \
2 & 5 & -\infty \
3 & 8 & 13
\end{bmatrix}
]

3.3 计算注意力权重

对 ( S_{\text{masked}} ) 的每一行进行 Softmax 操作，得到注意力权重矩阵 ( A )：

[
A = \text{Softmax}(S_{\text{masked}}) = \begin{bmatrix}
\text{Softmax}([1, -\infty, -\infty]) \
\text{Softmax}([2, 5, -\infty]) \
\text{Softmax}([3, 8, 13])
\end{bmatrix}
]

由于 Softmax 对负无穷的值会输出 0，因此：

[
A = \begin{bmatrix}
1 & 0 & 0 \
\frac{e^2}{e2 + e^5} & \frac{e^5}{e2 + e^5} & 0 \
\frac{e^3}{e3 + e^8 + e^{13}} & \frac{e^8}{e3 + e^8 + e^{13}} & \frac{e^{13}}{e3 + e^8 + e^{13}}
\end{bmatrix}
]

假设我们计算具体的数值：

对于第 1 行：
[
\text{Softmax}([1, -\infty, -\infty]) = [1, 0, 0]
]
对于第 2 行：
[
\frac{e^2}{e2 + e^5} \approx \frac{7.39}{7.39 + 148.41} \approx 0.047, \quad \frac{e^5}{e2 + e^5} \approx \frac{148.41}{7.39 + 148.41} \approx 0.953
]
因此：
[
\text{Softmax}([2, 5, -\infty]) \approx [0.047, 0.953, 0]
]
对于第 3 行：
[
\frac{e^3}{e3 + e^8 + e^{13}} \approx \frac{20.09}{20.09 + 2980.96 + 442413.39} \approx 0.000045, \quad \frac{e^8}{e3 + e^8 + e^{13}} \approx \frac{2980.96}{20.09 + 2980.96 + 442413.39} \approx 0.0067, \quad \frac{e^{13}}{e3 + e^8 + e^{13}} \approx \frac{442413.39}{20.09 + 2980.96 + 442413.39} \approx 0.993
]
因此：
[
\text{Softmax}([3, 8, 13]) \approx [0.000045, 0.0067, 0.993]
]

最终，注意力权重矩阵 ( A ) 为：

[
A \approx \begin{bmatrix}
1 & 0 & 0 \
0.047 & 0.953 & 0 \
0.000045 & 0.0067 & 0.993
\end{bmatrix}
]

3.4 计算输出

将注意力权重矩阵 ( A ) 与值矩阵 ( V ) 相乘，得到输出矩阵 ( O )：

[
O = AV = \begin{bmatrix}
1 & 0 & 0 \
0.047 & 0.953 & 0 \
0.000045 & 0.0067 & 0.993
\end{bmatrix} \begin{bmatrix}
1 & 0 \
0 & 1 \
1 & 1
\end{bmatrix}
]

计算结果为：

[
O = \begin{bmatrix}
1 \cdot 1 + 0 \cdot 0 + 0 \cdot 1 & 1 \cdot 0 + 0 \cdot 1 + 0 \cdot 1 \
0.047 \cdot 1 + 0.953 \cdot 0 + 0 \cdot 1 & 0.047 \cdot 0 + 0.953 \cdot 1 + 0 \cdot 1 \
0.000045 \cdot 1 + 0.0067 \cdot 0 + 0.993 \cdot 1 & 0.000045 \cdot 0 + 0.0067 \cdot 1 + 0.993 \cdot 1
\end{bmatrix}
]

简化后：

[
O \approx \begin{bmatrix}
1 & 0 \
0.047 & 0.953 \
0.993 & 0.9997
\end{bmatrix}
]