条件随机场 (CRF)_crf层-优快云博客

本文链接：https://blog.youkuaiyun.com/doswynkfsw/article/details/117078690

本文详细介绍了条件随机场(CRF)的概念、原理和应用，包括其与马尔可夫随机场的相似性，以及在序列标注问题中的使用。CRF通过考虑相邻元素之间的依赖关系来建模，通常用于自然语言处理中的词性标注和命名实体识别等任务。文章阐述了CRF的两个关键假设，并解释了模型训练、预测过程中的概率计算，包括Verterbi算法的运用。同时，提供了代码示例来说明分子和分母的计算过程，以及如何在实际模型中应用CRF。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

背景

CRF和HMM是有相似性的，最后都是使用Verterbi算法来进行最优状态转移序列的确定。CRF主要用于序列标注问题。本质：通过1D卷机学习近邻信息，然后输入到CRF定义好的计算方式中。一些实现的库，并不能主观反应出CRF的计算方式，因此可以通过具体原理实现细节仔细观察。

随机场有多种，一些已有的随机场如：马尔可夫随机场(MRF), 吉布斯随机场 (GRF), 条件随机场 (CRF), 和高斯随机场。

随机场

定义一：简单来说，随机场可以看作是一组对应于同一样本空间的随机变量的集合。一般来说，这些随机变量之间存在依赖关系，也只有当它们之间存在依赖关系的时候，我们才会将其单独拿出来看成一个随机场才有实际意义。

定义二：随机场是由若干个位置组成的整体，当给每一个位置中按照某种分布随机赋予一个值之后，其全体就叫做随机场。

CRF原理理解

下图表示我们的序列连接与预测。
在这里插入图片描述
CRF是进行了假设，一共两个假设，如下：
$x\bf{x}$

$,yn∣x)P(y_1, \cdots,y_n|x)$
在这里插入图片描述
在上述表示中 $h(y1;x)h(y_1;\bm{x})$ 的相邻位置为 $g(y1,y2;x)g(y_1,y_2;\bm{x})$ 。
尽管已经做了大量简化，但一般来说，(3) 式所表示的概率模型还是过于复杂，难以求解。于是考虑到当前深度学习模型中，RNN 或者层叠 CNN 等模型已经能够比较充分捕捉各个 y 与输出 x 的联系(主要是学习序列信息)，因此，我们不妨考虑函数 g 跟 x 无关，那么：
在这里插入图片描述

引入时间序列模型(RNN做卷积)， $x\bm{x}$ 与 $y$ 之间的关系直接用 $y$ 与 $y$ 去考虑。这时候 $g$ 实际上就是一个有限的、待训练的参数矩阵而已，而单标签的打分函数 $h(yi;x)。h(y_i;\bm{x})。$ 我们可以通过 RNN 或者 CNN 来建模。因此，该模型是可以建立的，其中概率分布变为：
在这里插入图片描述

算法步骤

重点：相比于HMM，要进行模型训练。HMM直接打标签了，这里对每个句子中的词通过0，1，2，3，4打了标签。

具体步骤

卷积层：通过一维卷积得到邻域信息。
CRF层：训练概率转移矩阵 $4×44\times4$ (B,M,E,S), 概率矩阵被初始化得到。之后通过与ground true的lable相乘计算得到。
预测层：计算概率转移矩阵 $4×44\times4$ (B,M,E,S)，总共16个值，这一步在代码分析中，是通过网路计算出来的, 在CRF自定义的网络层。
结果层：模型训练完成之后再通过verterbi算法找最优解。

代码理解

分子的计算

    def path_score(self, inputs, labels):
        """计算目标路径的相对概率（还没有归一化）
        要点：逐标签得分，加上转移概率得分。
        技巧：用“预测”点乘“目标”的方法抽取出目标路径的得分。
        """
        #下面这一步计算的可能是h(y_1, x)等
        point_score = K.sum(K.sum(inputs * labels, 2), 1, keepdims=True)  # 逐标签得分
        labels1 = K.expand_dims(labels[:, :-1], 3)
        labels2 = K.expand_dims(labels[:, 1:], 2)
        labels = labels1 * labels2  # 两个错位labels，负责从转移矩阵中抽取目标转移得分
        trans = K.expand_dims(K.expand_dims(self.trans, 0), 0)
        trans_score = K.sum(K.sum(trans * labels, [2, 3]), 1, keepdims=True)
        return point_score + trans_score  # 两部分得分之和

这里计算的主要是公式一下部分，在这里插入图片描述
后边部分的k是包含在求和符号里面的，上半部分为下半部分中的大括号里里面的。 $h(⋅)h(\cdot)$ 表示是前面的网络层。

分母的计算

类似于RNN, LSTM, GRU，需要通过前一个节点推下一个节点，因此产生了时间序列
在这里插入图片描述

outputs = K.logsumexp(states + trans, 1)

这个包含了，公式的右半部分的两个元素的对应乘积。
在这里插入图片描述

这里注意一下，这两个指数的相乘在代码中， $Z$ 利用rnn的递归特性进行求解。
batch_size为128， crf的inputs输入是一个样本个数，乘以状态个数的矩阵。

    def log_norm_step(self, inputs, states):
        """递归计算归一化因子
        要点：1、递归计算；2、用logsumexp避免溢出。
        技巧：通过expand_dims来对齐张量。
        inputs is predictive label， input is h
        init_states (128, 4)
        """
        #states[0] is (128,4)
        inputs, mask = inputs[:, :-1], inputs[:, -1:]
        #上边语句执行后 inputs shape is [128,4], mask shape is [128,1] 相当于每一个每一个句子中的第一个词
        states = K.expand_dims(states[0], 2)  # (batch_size, output_dim, 1) (128, 4, 1)
        #print("states shape:", states.shape)
        trans = K.expand_dims(self.trans, 0)  # (1, output_dim, output_dim) (1, 4, 4)
        # states+trans shape is (128,4,4), first exp, then sum, last to get log, 下面这一步表示了图转移
        outputs = K.logsumexp(states + trans, 1)  # (batch_size, output_dim)
        #outputs is [128,4]
        outputs = outputs + inputs
        #outputs is [128,4], states[:,:,0] is [128,4]
        outputs = mask * outputs + (1 - mask) * states[:, :, 0]
        print("states[:,:,0].shape",states[:,:,0].shape)
        return outputs, [outputs]

内容链接

https://www.cnblogs.com/gczr/p/10021249.html
https://www.jiqizhixin.com/articles/2018-05-23-3 （CRF实现附带链接）
https://blog.youkuaiyun.com/dianwei0041/article/details/101882673?utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogCommendFromMachineLearnPai2%7Edefault-2.control&depth_1-utm_source=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogCommendFromMachineLearnPai2%7Edefault-2.control（为什么要用CRF）
https://zhuanlan.zhihu.com/p/29989121
https://tech.meituan.com/2020/07/23/ner-in-meituan-nlp.html（美团NER探索实践）
https://wenku.baidu.com/view/d7cb1e7952d380eb63946d09.html（说明了条件随机场）