统计学习方法 第6章 逻辑斯谛回归与最大熵模型(2)
最大熵模型的学习
最大熵模型的学习等价于约束最优化问题:
即:
首先,引进拉格朗日乘子w0,…,wn,定义拉格朗日函数L(P,w):
最优化问题的原始问题:
对偶问题:
对偶函数的极大化等价于最大熵模型的极大似然估计。(证明p87)
先求解内部的极小化问题,得到:
即为最大熵模型,其中:
之后可用最优化算法求解对偶问题外部的极大化问题,得到w。
模型学习的最优化算法
改进的迭代尺度法IIS
- 对所有i,取初值wi=0
- 对每一i:
- 另δi是方程
的解,其中
- 更新wi值为wi+δi
- 另δi是方程
- 如果不是所有wi都收敛,重复步骤2
拟牛顿法BFGS算法
- 选定初始点w(0),取B0为正定对称矩阵,置k=0
- 计算
,若
则停止,最优参数
,否则进入步骤3 - 由
求pk - 一维搜索:求λk使得
- 置
- 计算
,若
则停止,最优参数
,否则求Bk+1:
,其中:
- 置k=k+1,转步骤3