Welcome To My Blog
最大熵模型(Maximum Entropy Model)属于对数线性模型,由最大熵原理推导实现.
最大熵原理
最大熵原理是概率模型学习的一个准则.
最大熵原理认为,学习概率模型时,在所有可能的概率模型(分布)中,熵最大的模型是最好的模型.
通常用约束条件来确定概率模型的集合,所以,最大熵原理也可以表述为在满足约束条件的模型集合中选取熵最大的模型
直观地,
+ 最大熵原理认为要选择的概率模型首先必须满足已有的事实,即约束条件,在没有更多信息的情况下,那些不确定的部分都是”等可能的”
+ 等概率表示了对事实的无知.因为没有更多信息,所以取等概率是合理的
+ 最大熵原理通过熵的最大化来表示等可能性
+ “等可能性”不容易操作,而熵则是一个可优化的数值指标
最大熵模型的定义
将最大熵原理应用到分类得到最大熵模型
假设分类模型是一个条件概率分布P(Y|X),
这个模型表示的是,对于给定的输入X,以条件概率P(Y|X)输出Y
给定一个训练集T={(x1,y1),…,(xn,yn)},学习的目标是用最大熵原理选择最好的分类模型
首先考虑模型应该满足的条件.给定训练数据集,可以确定联合分布P(X,Y)的经验分布和边缘分布P(X)的经验分布,表示为:
引入约束
联合分布的期望:
期望作为约束: