统计学习方法 6-逻辑斯谛回归与最大熵模型

最新推荐文章于 2024-04-25 16:07:30 发布

原创最新推荐文章于 2024-04-25 16:07:30 发布 · 413 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#统计学习 #机器学习

机器学习同时被 2 个专栏收录

12 篇文章

订阅专栏

统计学习

7 篇文章

订阅专栏

本文深入探讨了最大熵模型的基本概念及其应用，详细介绍了最大熵原理、模型定义与学习过程，并给出了具体的数学公式与优化算法，如改进的迭代尺度法、梯度下降法等。

逻辑斯谛回归模型

逻辑斯谛分布

二元逻辑斯谛回归模型

模型参数估计

多元逻辑斯谛回归

最大熵模型

最大熵原理

最大熵原理认为，学习概率模型时，在所有可能的概率模型（分布）中，熵最大的模型是最好的模型。通常用约束条件来确定概率模型的集合，所以，最大熵原理也可以表述为在满足约束条件的模型集合中选取熵最大的模型。

$H(P)=-\sum_x P(x)logP(x)$
$0≤H(P)≤log|X|$ ,当 X 服从均匀分布时，熵最大。

最大熵模型的定义

假设满足所有约束条件的模型集合为

ζ \equiv {P \in P | E p (f i) = E p ~ (f i), i = 1, 2, \dots, n}

$\zeta \equiv \{P\in \mathcal{P}|E_p(f_i)=E_{\tilde p}(f_i),i=1,2,\cdots,n\}$
定义在条件概率分布P(Y|X)上的条件熵为

H (P) = - \sum x, y P ~ (x) P (y | x) l o g P (y | x)

$H(P)=-\sum_{x,y}\tilde P(x)P(y|x)logP(y|x)$
则模型集合

ζ $\zeta$ 中条件熵H(P)最大的模型称为最大熵模型。

最大熵模型的学习

最大熵模型的学习过程就是求解最大熵模型的过程。
约束最优化问题：
$max_{P\in C}~~H(P)=-\sum_{x,y}\tilde P(x)P(y|x)logP(y|x)$
s.t.
$E_p(f_i)=E_{\tilde P}(f_i),~~i=1,2,\cdots,n$
$\sum_y P(y|x)=1$ $

最大熵模型：
$P_{\omega}(y|x)=\frac 1 {Z_{\omega }(x)} exp(\sum_{i=1}^n \omega_i f_i (x,y))$
其中，
$Z_{\omega}=\sum_y exp(\sum_{i=1}^n \omega_i f_i(x,y))$

极大似然估计

对偶函数的极大化等价于最大熵模型的极大似然估计。

模型学习的最优化算法

常用的方法有改进的迭代尺度法、梯度下降法、牛顿法或拟牛顿法。牛顿法或拟牛顿法一般收敛速度更快。

改进的迭代尺度法

最大熵模型的对数似然函数：
$L(\omega)=\sum_{x,y} \tilde P(x,y) \sum_{i=1}^n\omega_i f_i (x,y) - \sum_x \tilde P(x,y) log Z_{omega}(x)$
目标是通过极大似然估计学习模型参数，即求对数似然函数的极大值 $\tilde \omega$

IIS的想法是：假设最大熵模型当前的参数向量是 $w＝(w_1,w_2,…,w_n)^T$ ，我们希望找到一个新的参数向量 $w+\delta ＝(w_1+\delta_1,w_2+\delta _2,…,w_n+\delta _n)^T$ ，使得模型的对数似然函数值增大。如果能有这样一种参数向量更新的方法 $(w):w→w+\delta$ ，那么就可以重复使用这一方法，直至找到对数似然函数的最大值。

$L(\omega+\delta)-L(\omega) \ ≥ \sum_{x,y} \tilde P(x,y) \sum_{i=1}^n\delta_i f_i (x,y)+1-\sum_x \tilde P(x,y) \frac {Z_{\omega+\delta}(x)} {Z_\omega(x)} \ = \sum_{x,y} \tilde P(x,y) \sum_{i=1}^n\delta_i f_i (x,y)+1-\sum_x \tilde P(x,y) \sum_yP_\omega(y|x)exp\sum_{i=1}^n\delta_if_i(x,y)$

令 $A(\delta|\omega) =\sum_{x,y} \tilde P(x,y) \sum_{i=1}^n\delta_i f_i (x,y)+1-\sum_x \tilde P(x,y) \sum_yP_\omega(y|x)exp\sum_{i=1}^n\delta_if_i(x,y)$

$f^{\#}(x,y)=\sum_if_i(x,y)$

则 $A(\delta|\omega)= \sum_{x,y} \tilde P(x,y) \sum_{i=1}^n \delta_i f_i (x,y)+1-\sum_x \tilde P(x,y) \sum_y P_\omega(y|x) exp(f^#(x,y) \sum_{i=1}^n (\frac {f_i (x,y)} {f^#(x,y)})) \ ≥ \sum_{x,y} \tilde P(x,y) \sum_{i=1}^n \delta_i f_i (x,y)+1-\sum_x \tilde P(x,y) \sum_y P_\omega(y|x) \sum_{i=1}^n (\frac {f_i (x,y)} {f^#(x,y)}) exp(\delta_i,f^#(x,y))$

令 $B(\delta|\omega)=\sum_{x,y} \tilde P(x,y) \sum_{i=1}^n \delta_i f_i (x,y)+1-\sum_x \tilde P(x,y) \sum_y P_\omega(y|x) \sum_{i=1}^n (\frac {f_i (x,y)} {f^\#(x,y)}) exp(\delta_i,f^\#(x,y))$

拟牛顿法

最大熵模型：
$P_{\omega}(y|x)=\frac {exp(\sum_{i=1}^n \omega_i f_i (x,y))} {\sum_y exp(\sum_{i=1}^n \omega_i f_i(x,y))}$

目标函数：
$min_{\omega \in R^n} ~~~ \sum_x \tilde P(x) log \sum_y exp(\sum_{i=1}^n\omega_if_i(x,y))-\sum_{x,y} \tilde P(x,y) \sum_{i=1} ^n \omega_if_i(x,y)$

梯度：
$g(\omega)=(\frac {\partial f(\omega)} {\partial \omega_1},\frac {\partial f(\omega)} {\partial \omega_2}, \cdots ,\frac {\partial f(\omega)} {\partial \omega_n})$