Classification Probability Models and Conditional Random Fields(3)

本文深入探讨了最大熵模型的基础理论及其在序列标注任务中的应用,包括模型构建、参数训练方法和实际操作流程。重点阐述了如何通过最大熵原则找到满足已知信息条件概率分布,并详细解释了利用特征表达数据、经验分布计算模型的过程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

    上面介绍的两个模型都是为了计算的得到输入序列和输出标记的最大联合概率,在下面将讨论最大熵模型(Maximum Entropy Model)。最大熵模型计算的是标记序列对于输入变量的条件概率,它是CRF的基础。

       最大熵模型基于一个最大熵原则(Principle of Maximum Entropy),即在满足已知信息的前提下,不对模型做出任何假设。(if incomplete information about a probability distribution is available,the only unbiased assumption that can be made is a distribution which is as uniform as possible given the available information.)

       根据这个原则,我们说要求的条件概率就是在满足相关约束下是熵(H(y|x))最大的那个概率分布。熵的定义为:


      其中 Z = X × Y包含了X与Y的所有可能组合(X为输入集合,Y为标记集合),而不仅仅是在训练数据中出现的组合。这样我们要寻找的条件概率就是:

其中P表示的是所有满足限制条件的概率分布的集合。

在使用训练数据时,常使用特征来表示数据,常将特征定义为一个二值函数f(x,y),可能的一个特征为:

根据训练数据,可以得到每一个特征的经验期望,表示为:

在这个公式中,考虑了x、y的所有组合。但是在训练数据中没有出现的组合,他们的期望必然为0.所以上面的公式可以表示为:


而根据我们得到的模型,可得到每个特征的数学期望为:

因为所有可能的x与y的组合太多,不可能进行枚举计算,但是y的数量一般是有限并且很小的,所以使用贝叶斯规则将上式改写为:

将上式中的p(x)用经验概率进行替换,可得到:


该公式可以用前面的相同思想转换为:

这样就只考虑在训练数据中出现的x,而不用考虑所有可能的x。
       根据最大熵原则,我们的模型只需要满足已知的确定的信息,而已知的所有信息就是每一个特征的经验分布。所以,我们的模型只要满足对于每一个特征下式成立:

另外根据概率满足的公理,对概率分布有如下限制:

这样就可以将寻找满足以上限制的条件概率分布问题表示成一个限制条件下的最优化问题,使用拉格朗日乘子进行求解。构造拉格朗日函数:

其中H(y|x)定义为:

   (20)

下面是一些式子的推导,直接截图:




这就是最大熵模型的形式,对以上式子进行改写,可得到:

其中

      这就是最大熵模型的整个数学理论基础,至于参数训练方法这里就不再介绍,以后有时间再介绍,因为他的训练方法基本是通用的,很多模型都可以使用。

     PS:最大熵模型是一个分类模型,而不是序列标注模型,也就是说对于输入向量的不同位置进行label的时候,能使用的feature只能从输入向量提取,不能使用前一个位置的label作为特征使用(因为最大熵模型不满足马尔可夫性质)。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值