概率图模型(3)--条件随机场(2)

最新推荐文章于 2025-03-14 10:13:51 发布

转载最新推荐文章于 2025-03-14 10:13:51 发布 · 141 阅读

0 ·

CC 4.0 BY-SA版权

原文链接：https://www.cnblogs.com/pinard/p/7055072.html

机器学习专栏收录该内容

36 篇文章

订阅专栏

转：https://www.cnblogs.com/pinard/p/7055072.html

linear-CRF的三个基本问题

linear-CRF也有三个类似的的基本问题。不过和HMM不同，在linear-CRF中，我们对于给出的观测序列 x 是一直作为一个整体看待的，也就是不会拆开看 $x_1,x_2,...)$ ，因此linear-CRF的问题模型要比HMM简单一些，如果你很熟悉HMM，那么CRF的这三个问题的求解就不难了。

linear-CRF第二个问题是学习，即给定训练数据集XX和YY，学习linear-CRF的模型参数wkwk和条件概率Pw(y|x)Pw(y|x)，这个问题的求解比HMM的学习算法简单的多，普通的梯度下降法，拟牛顿法都可以解决。

linear-CRF第三个问题是解码，即给定 linear-CRF的条件概率分布P(y|x)P(y|x),和输入序列xx, 计算使条件概率最大的输出序列yy。类似于HMM，使用维特比算法可以很方便的解决这个问题。

linear-CRF的前向后向概率概述

要计算条件概率 $P(y_i|x)$ 和 $P(y_{i-1}，y_i|x)$ ，我们也可以使用和HMM类似的方法，使用前向后向算法来完成。首先我们来看前向概率的计算。

定义 $αi(yi∣x)\alpha_i(y_i|x)$ 表示序列位置 i 的标记是 $y_i$ 时，在位置 i 之前的部分标记序列的非规范化概率。之所以是非规范化概率是因为我们不想加入一个不影响结果计算的规范化因子 $Z (x)$ 在分母里面。

在上一篇，我们定义了下式：

$Mi(yi−1,yi∣x)=exp(∑k=1Kwkfk(yi−1,yi,x,i))M_i(y_{i-1},y_i |x) = exp(\sum\limits_{k=1}^Kw_kf_k(y_{i-1},y_i, x,i))$

这个式子定义了在给定 $y_{i-1}$ 时，从 $y_{i-1}$ 转移到 $y_i$ 的非规范化概率。

这样，我们很容易得到序列位置 $i - 1$ 的标记是 $y_{i-1}$ 时，在位置 $i - 1$ 之前的部分标记序列的非规范化概率 $αi+1(yi+1∣x)\alpha_{i+1}(y_{i+1}|x)$ 的递推公式：

$i=1,2,...,n+1\alpha_{i+1}(y_{i+1}|x) = \alpha_i(y_i|x)M_{i+1}(y_{i+1},y_i|x) \;\; i=1,2,...,n+1$

在起点处，我们定义：

$α0(y0∣x)={1y0=start0else\alpha_0(y_0|x)= \begin{cases} 1 & {y_0 =start}\\ 0 & {else} \end{cases}$

假设我们可能的标记总数是 m, 则 $y_{i}$ 的取值就有 m 个，我们用 $αi(x)\alpha_i(x)$ 表示这 m 个值组成的前向向量如下：

$αi(x)=(αi(yi=1∣x),αi(yi=2∣x),...αi(yi=m∣x))T\alpha_i(x) = (\alpha_i(y_i=1|x), \alpha_i(y_i=2|x), ... \alpha_i(y_i=m|x))^T$

同时用矩阵 $M_i(x)$ 表示由 $M_i(y_{i-1},y_i |x)$ 形成的 $\times m$ 阶矩阵：

$Mi(x)=[Mi(yi−1,yi∣x)]M_i(x) = \Big[ M_i(y_{i-1},y_i |x)\Big]$

这样递推公式可以用矩阵乘积表示：

$αi+1T(x)=αiT(x)Mi+1(x)\alpha_{i+1}^T(x) = \alpha_i^T(x)M_{i+1}(x)$

同样的。我们定义 $βi(yi∣x)\beta_i(y_i|x)$ 表示序列位置 i 的标记是 $y_{i}$ 时，在位置 i 之后的从 $i + 1$ 到 n 的部分标记序列的非规范化概率。

这样，我们很容易得到序列位置 $i + 1$ 的标记是 $y_{i+1}$ 时，在位置 i 之后的部分标记序列的非规范化概率 $βi(yi∣x)\beta_i(y_i|x)$ 的递推公式：

$βi(yi∣x)=Mi+1(yi,yi+1∣x)βi+1(yi+1∣x)\beta_{i}(y_{i}|x) = M_{i+1}(y_i,y_{i+1}|x)\beta_{i+1}(y_{i+1}|x)$

在终点处，我们定义：

$βn+1(yn+1∣x)={1yn+1=stop0else\beta_{n+1}(y_{n+1}|x)= \begin{cases} 1 & {y_{n+1} =stop}\\ 0 & {else} \end{cases}$

如果用向量表示，则有：

$βi(x)=Mi+1(x)βi+1(x)\beta_i(x) = M_{i+1}(x)\beta_{i+1}(x)$

由于规范化因子 $Z (x)$ 的表达式是：

$\sum\limits_{c=1}^m\alpha_{n}(y_c|x) = \sum\limits_{c=1}^m\beta_{1}(y_c|x)$

也可以用向量来表示 $Z (x)$ :

$\alpha_{n}^T(x) \bullet \mathbf{1} = \mathbf{1}^T \bullet \beta_{1}(x)$

其中，1 是 m 维全1向量.

linear-CRF的前向后向概率计算

有了前向后向概率的定义和计算方法，我们就很容易计算序列位置 i 的标记是 $y_{i}$ 时的条件概率 $P(y_i|x)$ :

$P(yi∣x)=αiT(yi∣x)βi(yi∣x)Z(x)=αiT(yi∣x)βi(yi∣x)αnT(x)∙1P(y_i|x) = \frac{\alpha_i^T(y_i|x)\beta_i(y_i|x)}{Z(x)} = \frac{\alpha_i^T(y_i|x)\beta_i(y_i|x)}{ \alpha_{n}^T(x) \bullet \mathbf{1}}$

也容易计算序列位置 i 的标记是 $y_{i}$ ，位置 i−1 的标记是 $y_{i-1}$ 时的条件概率 $P(y_{i-1},y_i|x)$ :

$P(yi−1,yi∣x)=αi−1T(yi−1∣x)Mi(yi−1,yi∣x)βi(yi∣x)Z(x)=αi−1T(yi−1∣x)Mi(yi−1,yi∣x)βi(yi∣x)αnT(x)∙1P(y_{i-1},y_i|x) = \frac{\alpha_{i-1}^T(y_{i-1}|x)M_i(y_{i-1},y_i|x)\beta_i(y_i|x)}{Z(x)} = \frac{\alpha_{i-1}^T(y_{i-1}|x)M_i(y_{i-1},y_i|x)\beta_i(y_i|x)}{ \alpha_{n}^T(x) \bullet \mathbf{1}}$

linear-CRF的期望计算

有了上一节计算的条件概率，我们也可以很方便的计算联合分布 $P (x, y)$ 与条件分布 $P (y ∣ x)$ 的期望。

特征函数 $f_k(x,y)$ 关于条件分布 $P (y ∣ x)$ 的期望表达式是：

$yifk(yi−1,yi,x,i)αi−1T(yi−1∣x)Mi(yi−1,yi∣x)βi(yi∣x)αnT(x)∙1\begin{aligned} E_{P(y|x)}[f_k] & = E_{P(y|x)}[f_k(y,x)] \\ & = \sum\limits_{i=1}^{n+1} \sum\limits_{y_{i-1}\;\;y_i}P(y_{i-1},y_i|x)f_k(y_{i-1},y_i,x, i) \\ & = \sum\limits_{i=1}^{n+1} \sum\limits_{y_{i-1}\;\;y_i}f_k(y_{i-1},y_i,x, i) \frac{\alpha_{i-1}^T(y_{i-1}|x)M_i(y_{i-1},y_i|x)\beta_i(y_i|x)}{ \alpha_{n}^T(x) \bullet \mathbf{1}} \end{aligned}$

同样可以计算联合分布 $P (x, y)$ 的期望：

$yifk(yi−1,yi,x,i)αi−1T(yi−1∣x)Mi(yi−1,yi∣x)βi(yi∣x)αnT(x)∙1\begin{aligned} E_{P(x,y)}[f_k] & = \sum\limits_{x,y}P(x,y) \sum\limits_{i=1}^{n+1}f_k(y_{i-1},y_i,x, i) \\& = \sum\limits_{x}\overline{P}(x) \sum\limits_{y}P(y|x) \sum\limits_{i=1}^{n+1}f_k(y_{i-1},y_i,x, i) \\& = \sum\limits_{x}\overline{P}(x)\sum\limits_{i=1}^{n+1} \sum\limits_{y_{i-1}\;\;y_i}f_k(y_{i-1},y_i,x, i) \frac{\alpha_{i-1}^T(y_{i-1}|x)M_i(y_{i-1},y_i|x)\beta_i(y_i|x)}{ \alpha_{n}^T(x) \bullet \mathbf{1}} \end{aligned}$