条件随机场CRF

原创已于 2023-11-26 14:48:14 修改 · 1k 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#CRF #条件随机场 #深度学习 #自然语言处理

于 2022-11-15 20:59:55 首次发布

人工智能学习笔记专栏收录该内容

277 篇文章

订阅专栏

本文介绍了条件随机场(CRF)在Part-of-Speech Tagging中的应用，包括线性链CRF的特征函数和目标函数，以及如何通过梯度下降学习权重。对比了CRF与HMM和逻辑回归的关系，并提供了实例和参考资料链接。

诸神缄默不语-个人优快云博文目录

本文是作者学习CRF后的笔记。

条件随机场CRF是适宜于顺序预测任务的判别模型，可用于命名实体识别、词性标注等。

1. linear-chain CRF

在序列预测任务中，用邻近（上下文）样本来辅助学习当前样本。

以Part-of-Speech Tagging任务为例：
任务示例：输入Bob drank coffee at Starbucks，标记为Bob (NOUN) drank (VERB) coffee (NOUN) at (PREPOSITION) Starbucks (NOUN)

本节限制特征仅取决于当前和前一个标签，而非句中任一标签：

特征函数feature function $f_i$ （需要一堆）：

输入：
- 句子 $s$
- 词语在句中的位置 $i$
- 当前词的标签 $l_i$
- 前一个词的标签 $l_{i-1}$
输出：实数（如0/1）

给每个feature function $f_j$ 分配一个权重 $\lambda_j$
给出一个句子 $s$ ，对labeling的打分方式是对所有单词的所有feature function求和：
$\sum_{j = 1}^m \sum_{i = 1}^n \lambda_j f_j(s, i, l_i, l_{i-1})$
将所有labeling的打分转换为概率（通过exponentiating and normalizing，即softmax）：
$\frac{exp[score(l|s)]}{\sum_{l’} exp[score(l’|s)]} = \frac{exp[\sum_{j = 1}^m \sum_{i = 1}^n \lambda_j f_j(s, i, l_i, l_{i-1})]}{\sum_{l’} exp[\sum_{j = 1}^m \sum_{i = 1}^n \lambda_j f_j(s, i, l’_i, l’_{i-1})]}$

Example Feature Functions：
在这里插入图片描述

CRF概率长得像逻辑回归→CRF就是逻辑回归的序列版：whereas logistic regression is a log-linear model for classification, CRFs are a log-linear model for sequential labels.

CRF和HMM：
在这里插入图片描述

算出CRF模型后，应用在新的句子上：
原始方法——算出所有 $p (l ∣ s)$ 的值：太慢了
(polynomial-time) dynamic programming algorithm（由于linear-chain CRFs满足 optimal substructure 特性）（类似HMM的维特比算法）

2. CRF目标函数

在第一节中我们得到了：
$\frac{exp[\sum_{j = 1}^m \sum_{i = 1}^n \lambda_j f_j(s, i, l_i, l_{i-1})]}{\sum_{l’} exp[\sum_{j = 1}^m \sum_{i = 1}^n \lambda_j f_j(s, i, l’_i, l’_{i-1})]}$

在这里插入图片描述

将 $\sum_{i = 1}^nf_j(s, i, l’_i, l’_{i-1})]$ 记为 $f_j(x,y)$ （s，l）

CRF模型的定义式：
$P(y|x)=\frac{1}{Z(x)}\exp\Big[\sum_j\lambda_j\big(f_j(x,i)\big)\Big]$
（其中 $Z(x)=\sum_y\Big[\sum_j\lambda_j\big(f_j(x,i)\big)\Big]$ ，可以看作所有可能的隐状态序列的score值之和）

我们的最终目标是找到能使得score值最大（ $P (y ∣ x)$ 最大）的隐状态序列。在定义好feature functions后，我们需要学习 $\lambda$

用梯度学习优化feature function的权重：

有一组句子-POS标签，随机初始化CRF权重
梯度下降
1. 对每个feature function $f_i$ ，计算样本的 $\log p$ 关于 $\lambda_i$ 的梯度： $\frac{\partial}{\partial w_j} \log p(l | s) = \sum_{j = 1}^m f_i(s, j, l_j, l_{j-1}) - \sum_{l’} p(l’ | s) \sum_{j = 1}^m f_i(s, j, l’_j, l’_{j-1})$
2. 上式第一项是 $f_i$ 在真实标签下的贡献，第二项是在当前模型下的。（我们希望模型学到的VS模型当前状态）（其实我有点没看懂这啥意思）
3. $\lambda_i = \lambda_i + \alpha [\sum_{j = 1}^m f_i(s, j, l_j, l_{j-1}) - \sum_{l’} p(l’ | s) \sum_{j = 1}^m f_i(s, j, l’_j, l’_{j-1})]$ （ $\alpha$ 是学习率）