CRF算法(Conditional Random Fields)揭秘

アナリスト

已于 2024-02-22 16:19:28 修改

阅读量2k

点赞数 9

CC 4.0 BY-SA版权

文章标签：算法人工智能机器学习动态规划

于 2024-02-22 15:50:55 首次发布

本文链接：https://blog.youkuaiyun.com/fearlesslpp/article/details/136102693

CRF基本介绍

在机器学习中，建模线性序列结构的方法，除了HMM算法，另一个重要的模型就是CRF。HMM为了降低模型复杂性，对观测变量做了独立假设(即隐状态之间有相关性，而观测变量之间没有相关性)，这在某种程度上损害了模型的准确性；CRF弥补了这个缺陷，它同样假设类别变量之间有相关性，但没有对观测变量之间做出任何假设(即可能有相关性，也可能没有相关性)。

CRF除了和HMM形成对比，前者是判别式模型，后者是生成式模型；另一方面，CRF还可看成是对最大熵模型的扩展，即它是一个结构化学习模型，而不是单个位置的分类模型。CRF如何被因子化，CRF公式如何推导，如何建立最大熵模型和CRF的公式联系，以及如何得到CRF图表示结构是本文的几个重点。本文还会提到，一些算法，刚开始被用于HMM，稍作修改也能用于线性链CRF，比如前向-后向算法、维特比算法。另外需要指出，用于线性链CRF的训练和推理算法，不能直接用于任意结构的CRF。

背景知识：条件熵(Conditional entropy)

信息论中，条件熵用于量化描述随机变量Y所需的信息量，在另一个随机变量X已知的情况下，写作H(Y|X)，具体形式如下：

（公式1）

其中 $\chi$ 和表示随机变量X和Y的样本集。注意，这里有可能出现 $0\, log0$ ，可以认为等于0，因为

直觉上，可以把 $H(Y|X)$ 看成是某个函数 $f(X,Y)$ 的期望，即 $H(Y|X)=E(f(X,Y))$ ，其中 $f$ 是条件概率，被定义为：

它是公式1中负号放到 $\Sigma$ 求和里面后的右半部分。 $f$ 函数可看成当给定变量 $X=x$ 时，为描述变量 $Y=y$ 需要的额外信息量。因此通过计算所有的 $(x,y)$ 数据对的 $f$ 期望值，条件熵 $H(Y|X)$ 就能测量出要想通过 $X$ 变量解码出 $Y$ 变量，平均意义上需要多少信息。