机器学习入门之《统计学习方法》笔记整理——最大熵模型

本文深入讲解了最大熵模型的基本原理,包括最大熵原理、模型定义及学习方法,并探讨了改进的迭代尺度算法(IIS)与BFGS算法在模型训练中的应用。此外,还讨论了该模型的优点和局限性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

最大熵模型

原文链接

目录

最大熵原理

  最大熵原理是概率模型学习的一个准则,最大熵原理认为,学习概率模型时,在所有的可能的概率模型中,熵最大的模型是最好的模型。通常用约束条件来确定概率模型的集合,所以,熵最大原理也可以描述为在满足约束条件的模型集合中选取熵最大的模型。

首先回顾几个概念:

  假设离散随机变量 X X X 的概率分布是 P ( X ) P(X) P(X) ,则其熵为

H ( P ) = − ∑ x P ( x ) log ⁡ P ( x ) H(P)=-\sum \limits_x P(x)\log P(x) H(P)=xP(x)logP(x)

  满足下列不等式:

0 ≤ H ( P ) ≤ log ⁡ ∣ X ∣ 0\leq H(P) \leq \log \left |X\right | 0H(P)logX

联合熵和条件熵

  两个随机变量的 X , Y X,Y XY 的联合分布,可以形成联合熵,用 H ( X , Y ) H(X,Y) H(X,Y) 表示

条件熵 H ( X ∣ Y ) = H ( X , Y ) − H ( Y ) H(X|Y) = H(X,Y) - H(Y) H(XY)=H(X,Y)H(Y)

H ( X ∣ Y ) = H ( X , Y ) − H ( Y ) = − ∑ x , y p ( x , y ) log ⁡ p ( x ∣ y ) H(X|Y) = H(X,Y) - H(Y)=-\sum \limits_{x,y} p(x,y)\log p(x|y) H(XY)=H(X,Y)H(Y)=x,yp(x,y)logp(xy)

相对熵与互信息

  设 p ( x ) , q ( x ) p(x),q(x) p(x),q(x) X X X 中取值的两个概率分布,则 p p p q q q 的相对熵是:

D ( p ∣ ∣ q ) = ∑ x p ( x ) log ⁡ p ( x ) q ( x ) = E p ( x ) log ⁡ p ( x ) q ( x ) D(p||q)=\sum \limits_x p(x) \log \frac{p(x)}{q(x)}=E_{p(x)}\log \frac{p(x)}{q(x)} D(pq)=xp(x)logq(x)p(x)=Ep(x)logq(x)p(x)

  两个随机变量 X , Y X,Y XY 的互信息,定义为 X , Y X,Y XY 的联合分布和独立分布乘积的相对熵。

I ( X , Y ) = D ( P ( X , Y ) ∣ ∣ P ( X ) P ( Y ) ) I(X,Y)=D(P(X,Y)||P(X)P(Y)) I(X,Y)=D(P(X,Y)P(X)P(Y))

I ( X , Y ) = ∑ x , y p ( x , y ) log ⁡ p ( x , y ) p ( x ) p ( y ) I(X,Y)=\sum \limits_{x,y} p(x,y) \log \frac{p(x,y)}{p(x)p(y)} I(X,Y)=x,yp(x,y)logp(x)p(y)p(x,y)

直观讲, 最大熵原理认为要选择的概率模型

(1)首先必须满足已有的事实,即约束条件。

(2)在没有更多信息的情况下,就假设那些不确定的部分都是等可能的。

  但是等可能不容易操作,而熵是一个可优化的数值指标。最大熵原理通过熵的最大化来表示等可能性。

最大熵模型的定义

  最大熵模型假设分类模型是一个条件概率分布 P ( Y ∣ X ) P(Y|X) P(YX) , X X X 为特征, Y Y Y 为输出。

  给定一个训练集 T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x N , y N ) } T=\{(x_{1},y_{1}),(x_2,y_2),...,(x_N,y_N)\} T={(x1,y1),(x2,y2),...(xN,yN)} ,其中 x x x n n n 维特征向量, y y y 为类别输出。我们的目标就是用最大熵模型选择一个最好的分类类型。

  在给定训练集的情况下,我们可以得到总体联合分布 P ( X , Y ) P(X,Y) P(X,Y) 的经验分布 P ~ ( X , Y ) \tilde{P}(X,Y) P~(X,Y) 和边缘分布 P ( X ) P(X) P(X) 的经验分布 P ~ ( X ) \tilde P(X) P~(X) P ~ ( X , Y ) \tilde{P}(X,Y) P~(X,Y) 即为训练集中 X , Y X,Y X,Y 同时出现的次数除以样本总数 N N N P ~ ( X ) \tilde P(X) P~(X) 即为训练集中 X X X 出现的次数除以样本总数 N N N

  用特征函数 f ( x , y ) f(x,y) f(x,y) 描述输入 x x x 和输出 y y y 之间的关系。定义为:

f ( x ) = { 1 ,  x与y满足某个关系  0 ,  否则  f(x)=\begin{cases}1, & \text{ x与y满足某个关系 } \\ 0, & \text{ 否则 } \end{cases} f(x)={1,0, xy满足某个关系  否则 

  可以认为只要出现在训练集中出现的 ( x i , y i ) (x_i,y_i) (xi,yi) ,其 f ( x i , y i ) = 1 f(x_i,y_i)=1 f(xi,yi)=1 . 同一个训练样本可以有多个约束特征函数。

  特征函数 f ( x , y ) f(x,y) f(x,y) 关于经验分布 P ~ ( X , Y ) \tilde{P}(X,Y) P~(X,Y) 的期望值,用 E P ~ ( f ) E_{\tilde P}(f) EP~(f) 表示为:

E P ~ ( f ) = ∑ x , y P ~ ( x , y ) f ( x , y ) E_{\tilde P}(f)=\sum \limits_{x,y} \tilde P(x,y)f(x,y) EP~(f)=x,yP~(x,y)f(x,y)

  特征函数 f ( x , y ) f(x,y) f(x,y) 关于条件分布 P ( Y ∣ X ) P(Y|X) P(YX) 和经验分布 P ~ ( X ) \tilde P(X) P~(X) 的期望值,用 E P ( f ) E_P(f) EP(f) 表示为:

E P ( f ) = ∑ x , y P ~ ( x ) P ( y ∣ x ) f ( x , y ) E_P(f)=\sum \limits_{x,y}\tilde P(x)P(y|x)f(x,y) EP(f)=x,yP~(x)P(yx)f(x,y)

  如果模型可以从训练集中学习,我们就可以假设这两个期望相等。即:

E P ~ ( f ) = E P ( f ) E_{\tilde P}(f)=E_P(f) EP~(f)=EP(f)

  上式是最大熵模型学习的约束条件,假如我们有n个特征函数 f i ( x , y ) , i = 1 , 2 , . . . , n f_i(x,y),i=1,2,...,n fi(x,y),i=1,2,...,n 就有n个约束条件。

  这样我们就得到了最大熵模型的定义如下:

  假设满足所有约束条件的模型集合为:

E P ~ ( f i ) = E P ( f i ) , i = 1 , 2 , . . . , n E_{\tilde P}(f_i)=E_P(f_i),i=1,2,...,n EP~(fi)=EP(fi),i=1,2,...,n

  定义在条件概率分布 P ( Y ∣ X ) P(Y|X) P(YX) 上的条件熵为:

H ( P ) = − ∑ x , y P ~ ( x ) P ( y ∣ x ) log ⁡ P ( y ∣ x ) H(P)=−\sum \limits_{x,y}\tilde P(x)P(y|x)\log P(y|x) H(P)=x,yP~(x)P(yx)logP(yx)

  我们的目标是得到使 H ( P ) H(P) H(P) 最大的时候对应的 P ( y ∣ x ) P(y|x) P(yx) ,这里可以对 H ( P ) H(P) H(P) 加了个负号求极小值,这样做的目的是为了使 − H ( P ) −H(P) H(P) 为凸函数,方便使用凸优化的方法来求极值。

最大熵模型的学习

  对于给定的训练数据集 T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , ( x 3 , y 3 ) , . . . , ( x n , y n ) } T=\{(x_1,y_1),(x_2,y_2),(x_3,y_3),...,(x_n,y_n)\} T={x1y1,x2y2,(x3y3),...,(xnyn)} 以及特征函数 f i ( x , y ) , i = 1 , 2 , 3 , . . . , n f_i(x,y),i=1,2,3,...,n fi(x,y),i=1,2,3,...,n ,最大熵模型的学习等价于约束的最优化问题:

max ⁡ P ∈ C H ( P ) = − ∑ x , y P ~ ( x ) P ( y ∣ x ) log ⁡ P ( y ∣ x ) s . t . E p ( f i ) = E P ~ , i = 1 , 2 , . . . , n ∑ y P ( y ∣ x ) = 1 \begin{matrix} \max \limits_{P \in C} & H(P)=-\sum \limits_{x,y} \tilde P(x)P(y|x)\log P(y|x) \\ s.t. & E_p(f_i)=E_{\tilde P},i=1,2,...,n \\ & \sum \limits_y P(y|x) =1 \end{matrix} PCmaxs.t.H(P)=x,yP~(x)P(yx)logP(yx)Ep(fi)=EP~,i=1,2,...,nyP(yx)=1

  引入朗格朗日乘子 w w w ,定义拉格朗日函数 L ( P , w ) L(P,w) L(P,w)

KaTeX parse error: No such environment: align* at position 7: \begin{̲a̲l̲i̲g̲n̲*̲}̲ L(P,w) &= -H(P…

最优化的原始问题:

min ⁡ P ∈ C max ⁡ w L ( P , w ) \min \limits_{P \in C} \max \limits_w L(P,w) PCminwmaxL(P,w)

对偶问题是:

max ⁡ w min ⁡ P ∈ C L ( P , w ) \max \limits_w \min \limits_{P \in C} L(P,w) wmaxPCminL(P,w)

  由于 L ( P , W ) L(P,W) L(P,W) P P P的凸函数,原始问题的解与对偶问题的解是等价的。这里通过求对偶问题的解来求原始问题的解。

第一步求解内部极小化问题,记为:

Ψ ( w ) = min ⁡ P ∈ C L ( P , w ) = L ( P w , w ) \Psi(w)=\min \limits_{P \in C} L(P,w)=L(P_w,w) Ψ(w)=PCminL(P,w)=L(Pw,w)

通过微分求导,得出 P P P 的解是:

P w ( y ∣ x ) = 1 Z w ( x ) exp ⁡ ( ∑ i = 1 n w i f i ( x , y ) ) P_w(y|x)=\frac{1}{Z_w(x)}\exp \left( \sum \limits_{i=1}^{n}w_if_i(x,y) \right) Pw(yx)=Zw(x)1exp(i=1nwifi(x,y))

Z w ( x ) = ∑ y exp ⁡ ( ∑ i = 1 n w i f i ( x , y ) ) Z_w(x)=\sum \limits_y \exp \left ( \sum \limits_{i=1}^{n}w_if_i(x,y) \right) Zw(x)=yexp(i=1nwifi(x,y))

第二步求外部的极大化问题:

max ⁡ w Ψ ( w ) \max \limits_w \Psi(w) wmaxΨ(w)

最后的解记为:

w ∗ = arg ⁡ max ⁡ w Ψ ( w ) w^*=\arg \max \limits_w \Psi(w) w=argwmaxΨ(w)

第三步可以证明对偶函数的极大化等价于第一步求解出的P的极大似然估计,所以将最大熵模型写成更一般的形式.

P w ( y ∣ x ) = 1 Z w ( x ) exp ⁡ ( ∑ i = 1 n w i f i ( x , y ) ) P_w(y|x)=\frac{1}{Z_w(x)}\exp \left(\sum \limits_{i=1}^{n}w_if_i(x,y)\right) Pw(yx)=Zw(x)1exp(i=1nwifi(x,y))

Z w ( x ) = ∑ y exp ⁡ ( ∑ i = 1 n w i f i ( x , y ) ) Z_w(x)=\sum \limits_y \exp \left ( \sum \limits_{i=1}^{n}w_if_i(x,y) \right) Zw(x)=yexp(i=1nwifi(x,y))

模型学习的最优化算法

  最大熵模型的学习最终可以归结为以最大熵模型似然函数为目标函数的优化问题。这时的目标函数是凸函数,因此有很多种方法都能保证找到全局最优解。例如改进的迭代尺度法(IIS),梯度下降法,牛顿法或拟牛顿法,牛顿法或拟牛顿法一般收敛比较快。

算法 (改进的迭代尺度算法IIS)

输入:特征函数 f 1 , f 2 , . . . , f n f_1,f_2,...,f_n f1,f2,...,fn ;经验分布 P ~ ( X , Y ) \tilde P(X,Y) P~(X,Y) ,模型 P w ( y ∣ x ) P_w(y|x) Pw(yx)

输出:最优参数值 w i ∗ w_i^* wi ,最优模型 P w ∗ P_{w^*} Pw

(1) 对所有 i ∈ { 1 , 2 , . . . , n } i\in \{ 1,2,...,n \} i{1,2,...,n} ,取初值 w i = 0 w_i=0 wi=0

(2) 对每一 i ∈ { 1 , 2 , . . . , n } i\in\{ 1,2,...,n \} i{1,2,...,n}

  (a) 令 δ i \delta_i δi 是方程

∑ x , y P ~ ( x ) P ( y ∣ x ) f i ( x , y ) exp ⁡ ( δ i ∑ i = 1 n f i ( x , y ) ) = E P ~ ( f i ) \sum \limits_{x,y} \tilde P(x)P(y|x)f_i(x,y)\exp (\delta_i \sum \limits_{i=1}^n f_i(x,y))=E_{\tilde P}(f_i) x,yP~(x)P(yx)fi(x,y)exp(δii=1nfi(x,y))=EP~(fi)

  (b) 更新 w i w_i wi w i ← w i + δ i w_i\leftarrow w_i + \delta_i wiwi+δi

(3) 如果不是所有 w i w_i wi 都收敛,重复步(2).

算法 (最大熵模型学习的BFGS算法)

输入:特征函数 f 1 , f 2 , . . . , f n f_1,f_2,...,f_n f1,f2,...,fn ;经验分布 P ~ ( X , Y ) \tilde P(X,Y) P~(X,Y) ,目标函数 f ( w ) f(w) f(w) ,梯度 g ( w ) = ∇ f ( w ) g(w)=\nabla f(w) g(w)=f(w) ,精度要求 ε \varepsilon ε

输出:最优参数值 w ∗ w^* w ,最优模型 P w ∗ ( y ∣ x ) P_{w^*}(y|x) Pw(yx)

(1) 选定初始点 w ( 0 ) w^{(0)} w(0) ,取 B 0 B_0 B0 为正定对称矩阵,置 k = 0 k=0 k=0

(2) 计算 g k = g ( w ( k ) ) g_k=g(w^{(k)}) gk=g(w(k)) . 若 ∥ g k ∥ < ε \left \| g_k \right \|<\varepsilon gk<ε ,则停止计算,得 w ∗ = w ( k ) w^*=w^{(k)} w=w(k) ;否则转(3)

(3) 由 B k p k = − g k B_kp_k=-g_k Bkpk=gk 求出 p k p_k pk

(4) 一维搜索:求 λ k \lambda_k λk 使得

f ( w ( k ) + λ k p k ) = min ⁡ λ ≥ 0 f ( w ( k ) + λ p k ) f(w^{(k)}+\lambda_kp_k)=\min \limits_{\lambda \geq 0} f(w^{(k)}+\lambda p_k) f(w(k)+λkpk)=λ0minf(w(k)+λpk)

(5) 置 w ( k + 1 ) = w ( k ) + λ k p k w^{(k+1)}=w^{(k)}+\lambda_kp_k w(k+1)=w(k)+λkpk

(6) 计算 g k + 1 = g ( w ( k + 1 ) ) g_{k+1}=g(w^{(k+1)}) gk+1=g(w(k+1)) ,若 ∥ g k ∥ < ε \left \| g_k \right \|<\varepsilon gk<ε ,则停止计算,得 w ∗ = w ( k ) w^*=w^{(k)} w=w(k) ;否则,按下式求出 B k + 1 B_{k+1} Bk+1

B k + 1 = B k + y k y k T y k T δ k − B k δ k δ k T B k δ k T B k δ k B_{k+1}=B_{k}+\frac{y_ky_k^T}{y_k^T\delta_k}-\frac{B_k\delta_k\delta_k^T B_k}{\delta_k^TB_k\delta_k} Bk+1=Bk+ykTδkykykTδkTBkδkBkδkδkTBk

其中,

y k = g k + 1 − g k , δ k = w ( k + 1 ) − w ( k ) \begin{matrix} y_k=g_{k+1}-g_k, & \delta_k=w^{(k+1)}-w^{(k)} \end{matrix} yk=gk+1gk,δk=w(k+1)w(k)

(7) 置 k = k + 1 k=k+1 k=k+1 ,转(3).

小结

最大熵模型的优点:

  1. 最大熵统计模型获得的是所有满足约束条件的模型中信息熵极大的模型,作为经典的分类模型时准确率较高。
  2. 可以灵活地设置约束条件,通过约束条件的多少可以调节模型对未知数据的适应度和对已知数据的拟合程度

最大熵模型的缺点:

  由于约束函数数量和样本数目有关系,导致迭代过程计算量巨大,实际应用比较难。

原文链接:https://quanfita.cn/article/maximum_entropy/
个人博客:https://quanfita.cn

参考文章

  1. 一步一步理解最大熵模型
  2. 最大熵模型原理小结
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Quanfita

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值