《李航统计学习方法》学习笔记——第六章 Logistic 回归与最大熵模型

本文链接：https://blog.youkuaiyun.com/qq_37039935/article/details/106442008

Logistic 回归与最大熵模型

1. Logistic 回归模型
2. 模型参数估计
3. 最大熵模型
4. 模型参数估计
- 4.1 改进的迭代尺度法IIS
- 4.2 拟牛顿法
习题6.1
习题6.2
习题6.3
参考

1. Logistic 回归模型

广义上的线性回归为：
$f(x)=g^{-1}(\omega x^T+b)$
其中g称为联系函数（应为连续函数且充分光滑），例如 $l n$ 等。
当进行分类问题，线性回归产生的模型预测值为 $z=\omega x^T+b$ 为实值，而y的取值为 ${0,1\}$ ，这是需要寻找一个联系函数使得z值转化为0/1值。

单位阶跃函数:
$\left\{\begin{matrix} 0&z<0 \\ 0.5&z=0 \\ 1 & z>0 \end{matrix}\right.$
该函数能够进行上述的转化，但是由于其不连续，所以不能作为联系函数。

于是这里引入对数几率函数（一种sigmoid函数），实现这样该转化过程。

logistic分布：设X连续随机变量符合logistic分布，则X的分布函数与密度函数为：
$F(x)=P(X\leqslant x)=\frac{1}{1+ e^{-x}}\\ f(x)=\frac{e^{-x}}{({1+e^{-x}})^2}$

logistic函数分布曲线为S曲线（sigmoid curve），且为凸函数（这点在数值优化中很重要），可以将z转化为接近0或1的y值，并且在z=0附近的变化速度块。
带入广义的线性函数模型中，由此得到函数
$y=\frac{1}{1+e^{-({\omega x^T+b})}}\\ \ \\ \ln\frac{y}{1-y}=\omega x^T+b$
这里定义几率（odds): 模型分类后，样本x被分为正例（如y=1）的个数与样本x被分为反例(如y=0)的个数之比。
$\frac{y}{1-y}$
对数几率为几率的对数。
$\ln\frac{y}{1-y}$
这里可以发现，对数几率与随机变量x为线性关系。
当用条件概率去理解该模型时，则可以得到二分logistic模型：
$P(Y=1|x)=\frac{e^{\omega x^T+b}}{1+e^{({\omega x^T+b})}}\\ \ \\ P(Y=0|x)=\frac{1}{1+e^{({\omega x^T+b})}}\\$
由此可见该函数特点：线性函数的值越接近正无穷，概率值就越接近1；线性函数的值越接近负无穷，概率值就越接近0

2. 模型参数估计

在估计 $\omega,b$ 参数的过程中，应用极大似然估计法
这里令 $\omega = (\omega^{(1)},\omega^{(2)},...,w^{(n)},b)$

在这里插入图片描述
所以最终问题转化为了求
$\omega^*=\arg\max_\omega L(\omega)$
因为 $L(\omega)$ 是关于 $\omega$ 的高阶可导连续函数，根据凸优化理论，经典的数值优化算法如梯度下降法，改进的迭代尺度法（IIS），牛顿法，拟牛顿法都可以求其解。

2.1 梯度下降法求参

梯度下降法是一种常用的一阶优化方法，是求解无约束优化问题最简单，最简单的方法之一。
在这里插入图片描述

首先对目标函数进行等价转换，更改为求极小值问题。
$\arg\max_\omega L(\omega)\Rightarrow \arg\min_\omega [-L(\omega)]$
取初值 $w^{(0)} \in \R^n,k=0$ 。
计算 $L(w^{(k)})$ 。
计算梯度 $g_k = g(w^{(k)})$ ，若 $||g_k||<\text{阈值}\epsilon$ ，停止迭代，令 $w^*=w^{(k)}$ ；否则，令 $p_k=- g(w^{(k)})$ ，求步长 $\lambda_k$ 使得：
$L(w^{(k)}+\lambda_kp_k)=\min_{\lambda\geqslant 0} L(w^{(k)}+\lambda p_k)$
令 $w^{(k+1)}=w^{(k)}+\lambda_k p_k$ ，计算 $L(w^{(k+1)})$ 。
若：
$||L(w^{(k+1)})-L(w^{(k)})|| < \epsilon \ \ or \ \ || w^{(k+1)}-w^{(k)}|| < \epsilon$
则停止迭代，令 $w^*=w^{(k+1)}$ 。
否则， $k = k + 1$ ，转（3）。
因为目标函数为凸函数，因此可以保证其为全局最优解。

缺点：该方法的收敛速度有时较慢。

2.2 牛顿法求参

牛顿法也是求解无约束最优化问题的常用算法，（因为利用了二阶导）有收敛速度快的优点。通过迭代，每一步需要求解目标函数的黑塞矩阵的逆矩阵，进行求参。

首先对目标函数进行等价转换，更改为求极小值问题。
$\arg\max_\omega L(\omega)\Rightarrow \arg\min_\omega [-L(\omega)]$
取初值 $w^{(0)} \in \R^n,k=0$ 。
计算梯度 $g_k = g(w^{(k)})$
若 $||g_k||<\text{阈值}\epsilon$ ，停止迭代，令 $w^*=w^{(k)}$ 。
计算黑塞矩阵 $H_k=H(x^{(k)})$ ,并求出 $p k$ :
$p_k=-H_kg_k$