CRF

一般条件随机场的定义:条件随机场是给定一组输入随机变量条件下,另一组输出随机变量的条件概率分布模型,其特点是假设输出随机变量构成马尔科夫随机场(概率无向图模型)。

什么是概率无向图?符合成对马尔科夫性(局部,全局)的联合概率分布就是概率无向图模型。即一个节点时间概率只依赖于相邻的节点。

条件随机场数学表示:设X、Y是随机变量,P(Y|X)是在给定X的条件下Y的条件概率分布,若Y构成马尔科夫随机场,则:P(Y_v|X,Y_w,w!=v)=P(Y_v|X,Y_w,v~w),对于Y中任意节点v成立,则称P(Y|X)为条件随机场。从其形式可以看出,当前状态概率的条件是整个观察序列和相邻状态,实际应用中,往往基于一个序列窗口来对观察序列进行特征编码。其中线性链条件随机场的相邻节点为相连的两个状态。注意分清楚,隐藏状态y的范围是一定了,而观察状态X的特征是可以自由编码的】

CRF的推导:与maxent的推导是内在一致的。

条件随机场的预测:条件随机场的形式为P(Y|X),所以,就是求X已知下,条件概率最大时对应的Y,可以用viterbi算法求解,是一个求非规范化概率最大的最优化问题。以序列为主书写条件概率,则每一时刻t求解状态y_i的特征权重和加上前一时刻非规范化概率的最大值。每一步计算的是非规范化概率,而不必计算归一化的规范概率。所以在预测时,P(Y|X)是被拆开在序列每个节点上进行解码的。这个预测过程与MEMM的预测相比,CRF在每个时间点上,都基于整个观察序列(理想状态下,窗口足够大)和前一个隐藏状态来考虑。所以,降低了(只是降低)MEMM的局部偏差。
预测的推导:Y*=argmaxP(Y|X),即标注过程是求已知X的情况下,每个(Y|X)对应的特征权重的和的最大值对应的Y即为Y*,所以,Y*=argmax(exp(w*F(Y,X)))/Z~argmax(exp(w*F(Y,X)))=argmax(w*F(Y,X))~∑w*Fi(Yi-1,Yi,X),其中F(Y|X)为特征权重对应的特征函数,故而标注问题归结为:Y*=∑w*Fi(Yi-1,Yi,X),去掉了分母和exp,降低了计算代价,并转化为按序列节点累计特征权重的形式,以便使用viterbi解码。

从这里看,viterbi的应用异常广泛,结构化标注问题中基本都需要用到viterbi的思想,除了HMM、MEMM、CRF,包括句法结构分析中的CYK解码等,都是动态规划和viterbi的体现。与beam search相比,实现上也基本一致,只不过后者常常求解近似全局最优。

为什么viterbi能解码标注得到全局最优?团定义了概率无向图的联合概率求解方式,但由公式到viterbi的产生,是一个数学证明和数学公式的算法抽象抽象和实现的过程,没琢磨清楚,母鸡。

CRF和HMM:CRF比HMM更强大,它的建模内容包含了HMM,一定程度上,可以将HMM看做CRF:
1
CRF比HMM的强大之处在于,它能够整合任意数量的特征集,同时特征的权重不用满足概率性质。
与CRF相比,Maxent的特征没有严格定义在序列上,当然,可以为最大熵模型提炼涉及到依赖关系的特征。maxent也可以看做用特征权重打分,但不是给序列对打分,而是给单独的一个样本打分,或者说是给序列中的一个节点对打分。

参考
《统计学习方法》等

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值