统计学习方法——第11章 条件随机场(CRF)

本文深入解析条件随机场(CRF)模型,阐述其作为预测和标注问题解决方案的核心原理。CRF是一种条件概率分布模型,假设输出随机变量构成马尔科夫随机场。文中详细介绍了线性链条件随机场的概念,以及如何通过概率无向图模型理解CRF的全局、局部和成对马尔科夫性。此外,还探讨了CRF的参数化形式,为读者提供了全面的CRF理论基础。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

条件随机场(Conditional Random Field, CRF)是给定一组输入随机变量条件下另一组输出随机变量的条件概率分布模型,其特点是假设输出随机变量构成马尔科夫随机场。CRF主要用于不同的预测问题和标注问题。

     定义:设XY是随机变量,P(Y|X)是给定X的条件下Y的条件概率分布。若随机变量Y构成一个由无向图G=(V,E)表示的马尔科夫随机场,即:P(Y_v|X,Y_w, w \neq v) = P(Y_v|X, Y_w, w\sim v)对任意结点v成立,则条件概率分布P(Y|X)为条件随机场。w\sim v表示与结点v有连接的所有结点ww \neq v表示除结点v以外的所有结点。

      举例:线性链条件随机场(linear chain CRF),设X = (X_1, X_2, ...,X_n),Y = (Y_1, Y_2, ...,Y_n)均为线性链表示的随机变量序列,在给定随机变量序列X的条件下随机变量序列Y的条件概率分布P(Y|X)构成条件随机场,即满足马尔科夫性:

                                                    P(Y_i|X,Y_1, Y_2, ... , Y_{i-1}, Y_{i+1}, ...,Y_n) = P(Y_i|X, Y_{i-1}, Y_{i+1})

概率无向图模型:

     概率无向图模型(probabilistic  undirected graphical model)又称马尔科夫随机场,是一个由无向图表示的联合概率分布;设有联合概率分布P(Y)Y \in \gamma是一组随机变量,无向图G=(V,E)表示概率分布P(Y),即在图G中,节点v \in V表示一个随机变量Y_v,边e \in E表示随机变量之间的概率依赖关系。

     成对马尔科夫性:P(Y_a, Y_b | Y_C)=P(Y_a|Y_C)P(Y_b|Y_C)

           ab是无向图G中任意两个没有边连接的节点,节点ab分别对应随机变量Y_aY_b,其他所有节点为C,对应随机变量组Y_C,成对马尔科夫性是指在给定随机变量组Y_C条件下随机变量Y_aY_b相互独立。

 

      局部马尔科夫性:P(Y_a, Y_B|Y_C)=P(Y_a|Y_C)P(Y_B|Y_C)

           设a是无向图G中任意一个节点,C是与a有边连接的所有节点,B是除Ca以外的所有节点的。局部马尔科夫性是指在给定随机变量组Y_C的条件下随机变量Y_a和随机变量组Y_B相互独立。

      全局马尔科夫性:P(Y_A, Y_B|Y_C)=P(Y_A|Y_C)P(Y_B|Y_C)

             设节点集合AB是无向图G中被节点集合C分开的任意节点集合,全局马尔科夫性是指给定随机变量组C的条件下随机       变量组Y_A和随机变量组Y_B相互独立。

    因式分解:

     将概率无向图的联合概率分布表示为其最大团上的随机变量的函数的乘积的形式,称为概率无向图的因式分解。

     团与最大团:

     无向图G中任意两个节点均有连接边的节点子集称为团(clique)。若C是无向图G中的一个团且不能加入G中的任意一个节点构成最大团,则C称为最大团(maximal clique)。

     给定概率无向图GC是无向图G的最大团,Y_C表示C对应的随机变量,则概率无向图联合概率分布P(Y)可以表示成所有最大团的函数的乘积的形式:  P(Y) = \dfrac{1}{Z}\coprod_Y \Psi_C(Y_C)其中,Z为规范化因子,Z = \sum_Y\prod_Y\Psi _C(Y_C),函数\Psi_C(Y_C)称为势函数(potential function),势函数严格为正,通常定义为指数函数:\Psi_C(Y_C) =-\exp\{E(Y_C)\}

    线性链条件随机场参数化形式

    设P(Y|X)为线性链条件随机场,则在Y随机变量X取值为xx的条件下,随机变量Y取值为y时的条件概率有如下形式:

                      P(y|x)=\dfrac{1}{Z}\exp(\sum_{i,k}\lambda_kt_k(y_{i-1}, y_i, x,i)+\sum_{i,l}u_ls_l(y_i,x, i))

     式中t_k,s_l是特征函数,\lambda_k,s_l是对应的权重。

 

 

 

 

 

 

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值