21[NLP训练营]CRF

CRF与HMM对比解析

最新推荐文章于 2024-07-06 22:45:00 发布

原创最新推荐文章于 2024-07-06 22:45:00 发布 · 481 阅读

0 ·

CC 4.0 BY-SA版权

NLP Bootcamp（完结）专栏收录该内容

30 篇文章

订阅专栏

本文深入探讨了条件随机场(CRF)与隐马尔科夫模型(HMM)的区别，详细讲解了CRF在处理时序数据上的优势，包括线性链CRF的推导过程、参数估计与推断问题的解决方案。

文章目录

起源（HMM vs CRF）
CRF:Log-Linear Model for Sequential Data
- Inference Problem
- 估计参数w

公式输入请参考：在线Latex公式

起源（HMM vs CRF）

可以看到下图中横向变化，和纵向的对比（有向图和无向图）。
在这里插入图片描述

求有向图和无向图联合概率

在这里插入图片描述
有向图的联合概率等于各个节点的条件概率的乘积，当然， $x_4,x_5$ 由于没有入度，所以不用条件。
注意，在计算条件概率的时候，只需要考虑局部的取值类型即可，例如： $p(x_2|x_3)$ ，只用考虑 $x_3$ 的取值（假设它是离散型），如果有两种值，就只用考虑两种情况。
无向图相对而言麻烦点：
在这里插入图片描述
这里要引入factor/feature function，这里引入这个东西就是要把上面的无向图进行拆分。拆分的结果就是上图中的绿色圈圈，三个三个一组。这样的一组也叫做clique（可以一个点做一个clique，可以两个点做一个clique，当然也可以三个做一个clique，但是必须是两两相互关联的。）拆分好后，联合概率就可以写为：
$p(x_1,x_2,x_3,x_4,x_5)=\phi_1(x_1,x_2,x_3)\phi_2(x_2,x_3,x_5)\phi_3(x_3,x_4,x_5)$
$\phi$ 就是feature function
由于联合概率也是概率，为了保证概率的值域是[0,1]，我们需要对上面的式子进行归一化，除以一个normalization term $z (x)$ ，也叫做partition function：
$p(x_1,x_2,x_3,x_4,x_5)=\cfrac{\phi_1(x_1,x_2,x_3)\phi_2(x_2,x_3,x_5)\phi_3(x_3,x_4,x_5)}{z(x)}$
partition function不好求。。。因为它是依赖于全局的变量（有向图是局部依赖）。

Log-Linear Model

逻辑回归和CRF都属于Log-Linear Model的一个特例，因此我们先来看看Log-Linear Model是什么。
$p(y|x;w)=\cfrac{exp\sum_{j=1}^Jw_jF_j(x,y)}{Z(x,w)}$
其中：
左边是条件概率，是一个判别模型。
$F_j(x,y)$ 是feature function（通常是手工设置，给定数据集后，这项相当与已知条件）， $w_j$ 是模型参数， $Z (x, w)$ 是normalization term。

Multinomial Logistic Regression

给出feature function的定义：
$F_j(x,y)=x_i\cdot I(y=c)$
x是d维的特征向量
y是分类，取值范围： ${1,2,...,c\}$ 。
I是indicator function，意思是当函数中的条件满足的时候函数取值为1，否则取值为0.
假设现在 $c = 3$ ，那么特征函数的维度是 $3\times d$ 也就是 $j\in1,2,3,...,3d$ ，同样的参数 $w$ 的维度也是 $3\times d$
下面是不同的分类的时候，特征函数的取值情况如下：
当 $y = 1$ 时
$\begin{matrix} F_1(x,y)=x_1 \\ F_2(x,y)=x_2 \\ \vdots\\ F_d(x,y)=x_d \\ F_{d+1}(x,y)=0 \\ \vdots\\ F_{2d}(x,y)=0\\ \vdots\\ F_{3d}(x,y)=0 \end{matrix}$
当 $y = 2$ 时

$\begin{matrix} F_1(x,y)=0 \\ F_2(x,y)=0 \\ \vdots\\ F_d(x,y)=0 \\ F_{d+1}(x,y)=x_1 \\ F_{d+2}(x,y)=x_2 \\ \vdots\\ F_{2d}(x,y)=x_d\\ F_{2d+1}(x,y)=0\\ \vdots\\ F_{3d}(x,y)=0 \end{matrix}$
当 $y = 3$ 时
$\begin{matrix} F_1(x,y)=0 \\ F_2(x,y)=0 \\ \vdots\\ F_d(x,y)=0 \\ F_{d+1}(x,y)=0 \\ F_{d+2}(x,y)=0\\ \vdots\\ F_{2d}(x,y)=0\\ F_{2d+1}(x,y)=x_1\\ F_{2d+2}(x,y)=x_2\\ \vdots\\ F_{3d}(x,y)=x_d \end{matrix}$
总共有3d个feature function等式。
下面来看看当分类为1的时候模型概率的计算（2d~3d的项都去掉了，因为都为0）：
$p(y=1|x;w)=\cfrac{\exp\sum_{j=1}^{3d}w_jF_j(x,y)}{Z(x,w)}=\cfrac{\exp\sum_{j=1}^{d}w_jx_j}{Z(x,w)}$
下面来看看当分类为2的时候模型概率的计算：
$p(y=2|x;w)=\cfrac{\exp\sum_{j=1}^{3d}w_jF_j(x,y)}{Z(x,w)}=\cfrac{\exp\sum_{j=d+1}^{2d}w_jx_{j-d}}{Z(x,w)}$
注意这里的x的下标是j-d，因为x的下标范围是1-d，但是j是从d+1到2d，所以这里要减去一个d，避免数组越界。
下面来看看当分类为3的时候模型概率的计算：
$p(y=3|x;w)=\cfrac{\exp\sum_{j=1}^{3d}w_jF_j(x,y)}{Z(x,w)}=\cfrac{\exp\sum_{j=2d+1}^{3d}w_jx_{j-2d}}{Z(x,w)}$
为了进一步展开，我们把参数写开：
$w=(w_1,w_2,...,w_d,w_{d+1},...,w_{2d},w_{2d+1},...,w_{3d})^T$
把它每d个分一个段，写成：
$w=(w^{(1)},w^{(2)},w^{(3)})^T$
那么，上面的分类的模型概率计算可以写为：
$p(y=1|x;w)=\cfrac{\exp(w^{(1)T}\cdot x)}{Z(x,w)}$
$p(y=2|x;w)=\cfrac{\exp(w^{(2)T}\cdot x)}{Z(x,w)}$
$p(y=3|x;w)=\cfrac{\exp(w^{(3)T}\cdot x)}{Z(x,w)}$
normalization term $z (x, w)$ 可以写成：
$Z(x,w)=\exp(w^{(1)T}\cdot x)+\exp(w^{(2)T}\cdot x)+\exp(w^{(3)T}\cdot x)$
模型概率写成：
$p(y=1|x;w)=\cfrac{e^{w^{(1)T\cdot x}}}{\sum_{i=1}^3e^{w^{(i)T\cdot x}}}$
$p(y=2|x;w)=\cfrac{e^{w^{(2)T\cdot x}}}{\sum_{i=1}^3e^{w^{(i)T\cdot x}}}$
$p(y=2|x;w)=\cfrac{e^{w^{(3)T\cdot x}}}{\sum_{i=1}^3e^{w^{(i)T\cdot x}}}$
以上实际上就是多元逻辑回归（Multinomial Logistic Regression）的形式。

Feature function

上面定义的feature function是：
$F_j(x,y)=x_i\cdot I(y=c)$
实际上，我们的feature function通常可以定义为（把上面的点乘左右分别看成AB）：
$F_j(x,y)=A_a(x)B_b(y)$
其中： $B_b(y)$ 是标签。
$A_a(x)$ 是特征，例如：
$A_1(x)$ ：单词x是大写或小写
$A_2(x)$ ：单词x的长度
$A_3(x)$ ：单词x的前缀是否是xx

不同的feature function得到的模型也不一样。

CRF:Log-Linear Model for Sequential Data

CRF其实就是Log-Linear Model处理时序数据的特例，因此，我们把Log-Linear Model的条件概率模型写出来，然后假设数据x是一个序列，来进行推导。原型
$p(y|x;w)=\cfrac{1}{Z(x,w)}exp\sum_{j=1}^Jw_jF_j(x,y)$
我们假设： $\bar x$ 是观测到的时序数据，类似一句话。
相应的有： $\bar y$ 是观测到的时序数据对应的标签。
新的模型：
$p(\bar y|\bar x;w)=\cfrac{1}{Z(x,w)}exp\sum_{j=1}^Jw_jF_j(\bar x,\bar y)$
由于不同的 $F_j(\bar x,\bar y)$ 可以得到不同类型的模型，因此我们先从最简单的CRF来开始推。
linear chain CRF，考虑到时序数据的特征，对特征函数做相应的定义：
$p(\bar y|\bar x;w)=\cfrac{1}{Z(x,w)}exp\sum_{j=1}^Jw_jF_j(\bar x,\bar y)\\ =\cfrac{1}{Z(x,w)}exp\sum_{j=1}^Jw_j\sum_{i=2}^nf_j(y_{i-1},y_i,\bar x,i)$
相当于把第j个特征函数看做是一个和时序有关的特征，然后把这个时序展开，并和 $\bar x$ 组成之前说过的factor，这里的i是时间步
在这里插入图片描述
说人话就是本来是整个序列 $\bar y$ 和 $\bar x$ 的特征，现在把 $\bar y$ 拆分成 $y_1,y_2,\cdots,y_n$ ，然后分别将拆分后的y和 $\bar x$ 设置feature function。这里怎么拆也是超参数，上图是两个y一组（ $y_{i-1},y_i$ ）。拆出来的y和 $\bar x$ 计算出来的特征做加权求和，得到整个序列 $\bar y$ 和 $\bar x$ 的特征
接下来看linear chain CRF两个重要问题：inference和参数估计

Inference Problem

问题描述：给定 $w,\bar x$ ，求 $\bar y$ ：
$\hat y=arg\underset{\bar y}{\max}p(\bar y|\bar x;w)=arg\underset{\bar y}{\max}\sum_{j=1}^Jw_jF_j(\bar x,\bar y)$
这里省略掉了normalization term，因为求极值的时候这个可以看做常量。继续写：
$\hat y=arg\underset{\bar y}{\max}\sum_{j=1}^Jw_j\sum_{i=2}^nf_j(y_{i-1},y_i,\bar x,i)$
我们定义：
$g_i(y_{i-1},y_i)=\sum_{j=1}^Jw_jf_j(y_{i-1},y_i,\bar x,i)$
因此：
$\hat y=arg\underset{\bar y}{\max}\sum_{i=2}^ng_i(y_{i-1},y_i)$
这里借鉴上节HMM中维特比算法，求当前点的最优解，是在前一个时刻的最优解的基础上进行求极值即可：
在这里插入图片描述

写成数学表达：
$u(k,v)=\underset{y_1,...,y_{k-1}}{\max}\sum_{i=1}^{k-1}g_i(y_{i-1},y_i)+g_k(y_{k-1},v)$
把 $y_{k-1}$ 单独拿出来，中括号里面就是上面的子问题。
$u(k,v)=\underset{y_{k-1}}{\max}\left[\underset{y_1,...,y_{k-2}}{\max}\sum_{i=1}^{k-2}g_i(y_{i-1},y_i)+g_{k-1}(y_{k-2},y_{k-1})\right]+g_k(y_{k-1},v)$
根据函数u的定义，上面可以写成（上面的中括号里面是子问题）：
$u(k,v)=\underset{u}{\max}\left[u(k-1,u)+g_k(u,v)\right]$
所以整个u就可以做是一个序列的动态规划求解，填充以下矩阵：
在这里插入图片描述

估计参数w

大概思路是第一步先看按log-linear 模型如何来求w，然后第二步再看特例CRF的w怎么求。
先写出公式：
$p(y|x;w)=\cfrac{1}{Z(x,w)}exp\sum_{j=1}^Jw_jF_j(x,y)\tag1$
按梯度下降的思想来求w，实际上要计算梯度（条件概率p对 $w_j$ 的偏导）
$\cfrac{\partial{\text{log}p(y|x;w)}}{\partial{w_j}}\tag2$
这里加一个log对求梯度没有影响，方便去掉后面e。
把公式1带入公式2：
$(2)=\cfrac{\partial}{\partial{w_j}}\text{log}p(y|x;w)=\cfrac{\partial}{\partial{w_j}}\left[\sum_{j=1}^Jw_jF_j(x,y)-\text{log}Z(x,w)\right]$
然后中括号每项分别对w求导
$(2)=F_j(x,y)-\cfrac{1}{Z(x,w)}\cdot\cfrac{\partial}{\partial{w_j}}Z(x,w)\tag3$
之前说过，Z是一个归一化项，因此可以按类别求和后，把它写出来
$Z(x,w)=\sum_{y'}\exp\sum_{j=1}^Jw_jF_j(x,y')\tag4$
然后我们根据公式4来对 $Z (x, w)$ 求w的偏导。
$\cfrac{\partial}{\partial{w_j}}Z(x,w)=\cfrac{\partial}{\partial{w_j}}\sum_{y'}\exp\sum_{j=1}^Jw_jF_j(x,y')$
上面的 $y^{'}$ 与求偏导的对象无关，可以挪到前面，并且为了和前面的 $j$ 区分，这里把求和的 $j$ 写成 $j^{'}$ ：
$=\sum_{y'}\cfrac{\partial}{\partial{w_j}}\exp\sum_{j'}w_{j'}F_{j'}(x,y')\\ =\sum_{y'}\exp\sum_{j'}w_{j'}F_{j'}(x,y')\cfrac{\partial}{\partial{w_j}}\sum_{j'}w_{j'}F_{j'}(x,y')$
这里，因为 $\cfrac{\partial}{\partial{w_j}}\sum_{j'}w_{j'}F_{j'}(x,y')$ 求导过程中，只对第j个有结果，其他项对 $w_j$ 求导都变0了，所以上面：
$=\sum_{y'}\left[\exp\sum_{j'}w_{j'}F_{j'}(x,y')\right]F_{j}(x,y')\tag5$
把公式5带入3：
$=F_j(x,y)-\cfrac{1}{Z(x,w)}\sum_{y'}\left[\exp\sum_{j'}w_{j'}F_{j'}(x,y')\right]F_{j}(x,y')\\ =F_j(x,y)-\sum_{y'}F_{j}(x,y')\cfrac{\exp\sum_{j'}w_{j'}F_{j'}(x,y')}{Z(x,w)}$
根据Log-Linear Model条件概率的定义最后一个分式可以写为 $p (y^{'} ∣ x; w)$ ，因此上式写成：
$=F_j(x,y)-\sum_{y'}F_{j}(x,y')p(y'|x;w)$
后面这项是考虑了 $y^{'}$ 的各个可能，按期望的概念，可以写为：
$=F_j(x,y)-\underset{y'\sim p(y'|x;w)}{E}\left\{F_{j}(x,y')\right\}\tag6$
把这个结论先记下来。
在来看如何计算 $Z(\bar x,w)$ ，这个后面要用到。把它写为考虑所有的 $\bar y$ 的情况（这个上面有推过）：
$\begin{aligned} Z(\bar x,w)&=\sum_{\bar y}\exp\sum_{j=1}^Jw_jF_j(\bar x,\bar y)\\ &=\sum_{\bar y}\exp\sum_{j=1}^Jw_j\sum_{i=2}^nf_j(y_{i-1},y_i,\bar x,i)\\ &=\sum_{\bar y}\exp\sum_{i=2}^ng_i(y_{i-1},y_i)+ \end{aligned}$
要解这个，一种考虑所有的组合： $O(m^n)$ ，其中n是序列的长度，m是状态个数
另外一种是用HMM里面的FB算法。
Forward algorithm：先定义
$\alpha(k+1,v)=\sum_{y_1,...,y_k}\exp[\sum_{i=2}^kg_i(y_{i-1},y_i)+g_{k+1}(y_{k},v)]$
意思是序列总长度为n，只考虑1到k+1的子序列，前面是1到k，后面一项是k+1项，我们把这项设置为v
在这里插入图片描述
再把 $y_k$ 分出来，变成 $y_1,...,y_{k-1}$ 和 $y_k$ ， $y_k$ 设置为u：
$\alpha(k+1,v)=\sum_u\sum_{y_1,...,y_{k-1}}\exp\left[\sum_{i=2}^{k-1}g_i(y_{i-1},y_i)\right]\exp\left[g_{k}(y_{k-1},u)\right]\exp\left[g_{k+1}(u,v)\right]$
上式中： $\sum_{y_1,...,y_{k-1}}\exp\left[\sum_{i=2}^{k-1}g_i(y_{i-1},y_i)\right]\exp[g_{k}(y_{k-1},u)]$ 实际上是 $\alpha(k+1,v)$ 的子问题。因此：
$\alpha(k+1,v)=\sum_u\alpha(k,u)\exp[g_{k+1}(u,v)]$
类似的，Backward algorithm可以定义：
$\beta(u,k)=\sum_v[\exp g_{k+1}(u,v)]\beta(v,k+1)$
在这里插入图片描述
最后：
$Z(\bar x,w)=\sum_u\alpha(k,u)\beta(u,k)$
这里是考虑离散型变量的序列的估计，如果是连续型，要使用蒙特卡洛方法进行估计。
有了上面的结论，我们可以很容易的计算出类似HMM某一个时刻隐变量的条件概率：
$p(y_k=u|\bar x;w)=\cfrac{\alpha(k,u)\beta(u,k)}{Z(\bar x,w)}$
类似的，HMM中状态转移的条件概率可以表示为：
$p(y_k=u,y_{k+1}=v|\bar x;w)=\cfrac{\alpha(k,u)[\exp g_{k+1}(u,v)]\beta(v,k+1)}{Z(\bar x,w)}$
下面可以开始解决公式6
$\begin{aligned}\cfrac{\partial}{\partial{w_j}}\text{log}p(\bar y|\bar x;w)&=F_j(\bar x,\bar y)-\underset{y'\sim p(y'|\bar x;w)}{E}\{F_{j}(\bar x,y')\}\\ &=F_j(\bar x,\bar y)-\underset{\bar y}{E}\left[\sum_{i=2}^nf_j(y_{i-1},y_i,\bar x,i)\right]\\ &=F_j(\bar x,\bar y)-\sum_{i=2}^n\underset{\bar y}{E}[f_j(y_{i-1},y_i,\bar x,i)]\end{aligned}$
这里有个trick，期望本来是对于所有的y，也就是 $\bar y$ ，但是这里的期望只依赖于 $y_{i-1},y_i$ ，所以上面可以写为：
$=F_j(\bar x,\bar y)-\sum_{i=2}^n\underset{ y_{i-1},y_i}{E}[f_j(y_{i-1},y_i,\bar x,i)]$
按期望展开：
$=F_j(\bar x,\bar y)-\sum_{i=2}^n\sum_{y_{i-1}}\sum_{y_i}f_j(y_{i-1},y_i,\bar x,i)\cdot p(y_i,y_{i-1}|\bar x;w)$
最后吧上面的 $p(y_k=u,y_{k+1}=v|\bar x;w)$ 带进来：
$\cfrac{\partial}{\partial{w_j}}\text{log}p(\bar y|\bar x;w)=F_j(\bar x,\bar y)-\sum_{i=2}^n\sum_{y_{i-1}}\sum_{y_i}f_j(y_{i-1},y_i,\bar x,i)\cdot \cfrac{\alpha(i-1,y_{i-1})[expg_{i}(y_{i-1},y_i)]\beta(y_i,i)}{Z(\bar x,w)}$
有了上面的结果，我们就可以计算梯度：
$w_j^{t+1}=w_j^t-\eta_t\cfrac{\partial}{\partial{w_j}}\text{log}p(\bar y|\bar x;w)$
然后利用梯度下降来求参数w。