最大熵模型的基本原理是:在只掌握关于未知分布的部分信息的情况下,符合已知知识的概率分布可能有多个,但使熵值最大的概率分布最真实地反映了事件的分布情况,因为熵定义了随机变量的不确定性,当熵最大时,随机变量最不确定,最难准确地预测其行为。也就是说,在已知部分信息的前提下,关于未知分布最合理的推断应该是符合已知信息最不确定或最大随机的推断。
最大熵模型参数训练的任务就是选取有效的特征fi及其权重λi。由于可以利用歧义点所在的上下文信息(如词形、词性、窗口大小等)作为特征条件,而歧义候选往往有多个,因此,各种特征条件和歧义候选可以组合出很多特征函数,必须对其进行筛选。常用的筛选方法有:①从候选特征集中选择那些在训练数据中出现频次超过一定阈值的特征;② 利用互信息作为评价尺度从候选特征集中选择满足一定互信息要求的特征;③利用增量式特征选择方法从候选特征集中选择特征。第三种方法比较复杂,一般不用。
对于参数λ,常用的获取方法是通用迭代算法(generalized iterative scaling, GIS)。GIS算法要求对训练样本集中每个实例的任意(a, b) ∈A×B,特征函数之和为常数,即对每个实例的k个特征函数均满足=C(C为一常数)。如果该条件不能满足,则在训练集中取:
并增加一个特征fl:fl(a, b)=C-。其中,l=k+1。与