逻辑回归优化方法-优快云博客

本文链接：https://blog.youkuaiyun.com/howardact/article/details/52980332

#1、构造似然函数
（1）、 $h_{\theta }(x)$ 表示y=1的概率
$h_{\theta }(x)=g(\theta^{T}x)= \frac{1}{1+e^{-\theta^{T}x}}\tag{1.1}$

（2）、 $L(\theta)$ 为似然函数
$L(\theta)=\prod_{i=1}^{m}h_{\theta }(x^{(i)})^{y^{(i)}}(1-h_{\theta }(x^{(i)}))^{(1-y^{(i)})}\tag{1.2}$

当$y\in[-1,1], 1-h(x)=h(-x) $
$L(\theta)=\prod_{i=1}^{m}h_{\theta}(y^{(i)}x^{(i)})=\sum_{i=1}^{m} log(h_{\theta}(y^{(i)}x^{(i)}))$
$=\sum_{i=1}^{m} log(\frac{1}{1+e^{-y^{(i)}x^{(i)\theta^T}}})$
$=-\sum_{i=1}^{m} log(1+e^{-y^{(i)}x^{(i)}\theta^T})$

（3）、 $l(\theta)$ 为 $\theta$ 的对数似然函数，取对数似然函数的最大值。

$l(\theta)=log(L(\theta))=\sum_{i=1}^{m}(y^{(i)}log(h_{\theta }(x^{(i)}))+(1-y^{(i)})log(1-h_{\theta }(x^{(i)})))\tag{1.3}$

$l^{'}(\theta)=\sum_{i=1}^{m}(y^{(i)}-h_{\theta}(x^{(i)}))x^{(i)}_{j}$

（4）、 $f(\theta)$ 乘了一个负的系数-1/m,所以 $f(\theta)$ 取最小值时 $\theta$ 为最佳参数。
$f(\theta)= -\frac{1}{m}l(\theta)\tag{1.4}$

当 $y\in[-1,1] ,f(\theta)=\frac{1}{m}\sum_{i=1}^{m} log(1+e^{-y^{(i)}x^{(i)}\theta^T})$

其中m是个体数目，即行数，i=1…m；n为参数 $\theta$ 个数，即列数, j= 1…n。

2、梯度下降求解参数 $\theta$

梯度下降求解 $\theta$ 的过程：
$\theta_{j}:=\theta_{j}-\alpha \frac{\partial f(\theta)}{\partial_{\theta_{j}}}\tag{2.1}$

$\frac{\partial f(\theta)}{\partial_{\theta_{j}}}=-\frac{1}{m}\sum_{i=1}^{m}\left (y^{(i)}-h_{\theta}(x^{(i)})\right)x^{(i)}_{j}\tag{2.2}$

则 $\theta$ 的更新过程可以写成：
$\theta_{j}:=\theta_{j}-\left(-\frac{1}{m}\sum_{i=1}^{m}\left(y^{(i)}-h_{\theta}(x^{(i)})\right)x^{(i)}_{j}\right)\tag{2.3}$
$\theta_{j}:=\theta_{j}+\frac{\alpha}{m}\sum_{i=1}^{m}\left(y^{(i)}-h_{\theta}(x^{(i)}\right)x^{(i)}_{j}\tag{2.3}$

$g'(z)=\left(\frac{1}{1+e^{-z}}\right)'=g(z)\cdot (1-g(z))$
##2.1批量梯度下降（BGD）
$\theta_{j}:=\theta_{j}+\frac{\alpha}{m}\sum_{i=1}^{m}\left(y^{(i)}-h_{\theta}(x^{(i)})\right)x^{(i)}_{j}\tag{2.3}$

公式2.3可以看出，每迭代一步，都要用到训练集所有的数据，此算法为批量梯度下降。

##2.2随机梯度下降（SGD）
$\theta_{j}:=\theta_{j}+\alpha \left(y^{(i)}-h_{\theta}(x^{(i)})\right)x^{i}_{j}\tag{2.4}$

$x^{(i)}表示第i行数据，即每个样本的自变量数据$
利用每个样本更新一次参数向量。
$在计算h_{\theta}(x^{(i)})时，可完全利用上个样本迭代出来的\theta 向量，也可利用此样本已经更新的\theta向量。$

https://www.cnblogs.com/maybe2030/p/5089753.html
#3、牛顿迭代求解参数

$设 n 为一个正整数，如果定义在一个包含 a 的区间上的函数 f 在 a 点处 n + 1 次可导那么对于这个区间上的任意 x 都有：$
$f(x)=\sum_{n=0}^{N}\frac{f^{n}(a)}{n!}(x-a)^{n}+R_{n}(x)$
$其中多项式称为函数在a处的泰勒展开,R_{n}是泰勒公式的余项且是(x-a)_{n}的高阶无穷小。$

##3.2牛顿迭代求解逻辑回归参数

逻辑回归损失函数：
$l(\theta)=log(L(\theta))=\sum_{i=1}^{m}(y^{(i)}log(h_{\theta }(x^{(i)}))+(1-y^{(i)})log(1-h_{\theta }(x^{(i)})))\tag{1.3}$

$f(\theta)= -\frac{1}{m}l(\theta)\tag{1.4}$

对于无约束最优化问题

$\theta^*=arg\ \min_{\theta\in R^n}f(\theta)\tag{3.2.1}$

$\theta 在回归问题中为回归系数向量$

$假设f(\theta)具有二阶连续偏导，若第k次迭代值为\theta^{(k)}，则可将f(\theta)在\theta^{(k)}处进行二阶泰勒展开$

$f(\theta)=f(\theta^{(k)})+g_k^T\cdot (\theta-\theta^{(k)})+\frac{1}{2}\cdot (\theta-\theta^{(k)})^T \cdot H(\theta^{(k)}) \cdot (\theta-\theta^{(k)})\tag{3.2.2}$

$这里，g_k=g(\theta^{(k)})=\bigtriangledown f(\theta^{(k)})是f(\theta)的梯度向量在点\theta^{(k)}的值，H(\theta^{(k)})是f(\theta)的海赛矩阵（Hesse matrix）$

$H(\theta)=\left[\frac{\partial^2f }{\partial \theta_i \partial \theta_j}\right]_{n \times n}\tag{3.2.3}$

$在点\theta^{(k)}的值。函数f(\theta)有极值的必要条件是在极值点处一阶导数为0，即梯度向量为0。特别当H(\theta^{(k)})是正定矩阵时（损失函数为凸函数），函数f(\theta)的极值为最小值。$

牛顿法利用极小值点的必要条件：

$\theta^* = arg\ \underset{\theta\in R^n}{0} \bigtriangledown f(\theta)\tag{3.2.4}$

$\theta为变量向量，\theta^*,\theta^{(k)},\theta^{(k+1)}均为\theta 的取值空间中的一个具体值。$

$在参数空间内寻找合适的\theta^*,使得\bigtriangledown f(\theta^*)=0,对式3.2.2对\theta求导，可得：$
$\bigtriangledown f(\theta)=g_k+H_k \cdot (\theta-\theta^{(k)})\tag{(3.2.5)}$

$其中H_k=H(\theta^{(k)})$

$每次迭代从点\theta^{(k)}开始，求目标函数的极小值点，作为k+1次迭代值\theta^{(k+1)},$

$\bigtriangledown f(\theta^{(k+1)})=g_{k+1}(\theta^{(k+1)})=g_{k}(\theta^k)+H_k \cdot (\theta^{(k+1)}-\theta^{(k)})\tag{3.2.6}$

$假设\theta^{(k+1)}满足：$
$\bigtriangledown f(\theta^{(k+1)})=0\tag{3.2.7}$
则：
$\theta^{(k+1)}=\theta^{(k)}-H_{k}^{-1}\cdot g_k\tag{3.2.8}$

$g_{k(j)} =\frac{\partial f(\theta)}{\partial \theta_{j}}=-\frac{1}{m}\sum_{i=1}^{m}(y^{(i)}-h_{\theta}(x^{(i)}))x^{(i)}_{j}\tag{3.2.9}$

\begin{align} H_{k(ij)}= &\frac{\partial^2f(\theta)}{\partial\theta_i\partial\theta_j}\ & =-\frac{1}{m} \frac{\partial}{\theta_j}\sum_{t=1}^m(y{(t)}-h_\theta(x^{(t)}))x_i{(t)}
\ & =- \frac{1}{m} \sum_{t=1}^m \frac{\partial}{\theta_j} (y^{{(t)}-h_\theta(x}{(t)}))x_i^{(t)}
\ & =- \frac{1}{m} \sum_{t=1}^m -x_i^{(t)} \frac{\partial }{\partial \theta_j}h_\theta(x^{(t)})
\ & = -\frac{1}{m} \sum_{t=1}^m -x_i^{(t)} h_\theta(x^{(i)}) (1-h_\theta(x^{(i)})) \frac{\partial}{\theta_j}(\theta^Tx{(t)} )
\ &=-\frac{1}{m} \sum_{t=1}^m h_\theta(x^{{(t)})(h_\theta(x}{(t)})-1)x^{(t)}_ix{(t)}_j\ \end{align}

##3.3、拟牛顿法

基本思想：
$在实际求解过程中，需要计算海赛矩阵的逆矩阵H^{-1},这一过程较为复杂，考虑用一个n阶矩阵G_k=G(\theta^{(k)})来近似代替H_{k}^{-1}=H^{-1}(\theta^{k})，$
$先看牛顿迭代中海赛矩阵H_k满足的条件。首先，H_k 满足以下关系，由3.2.6能得到：$
$g_{k+1}-g_{k}=H_k \cdot (\theta^{(k+1)}-\theta^{k})\tag{3.3.1}$

$y_k=g_{k+1}-g_k,s_k=\theta^{(k+1)}-\theta^{k}$

$y_k=H_k\cdot s_k\tag{3.3.2}$

$H_{k}^{-1}\cdot y_k = s_k\tag{3.3.3}$

###3.3.1、 $DFP算法：将G_k作为H_{k}^{-1}的近似$
$G_{k+1}\cdot y_k=s_k\tag{3.3.4}$

$G_{k+1}=G_k + \bigtriangleup G_k\tag{3.3.5}$

$G_{k+1}=G_{k}+ \frac{s_k \ s_{k}^{T}}{s_{k}^{T}\ y_k}-\frac{G_k\ y_k\ y_{k}^{T}\ G_k}{y_{k}^{T}\ G_k\ y_k}\tag{3.3.6}$

###3.3.2、 $BFGS算法：B_k代替H_k$
$y_k=B_{k+1}\cdot s_k\tag{3.3.7}$
$B_{k+1}=B_k + \bigtriangleup B_k\tag{3.3.8}$
$B_{k+1}=B_k+\frac{y_k\ y_{k}^{T}}{y_{k}^{T}\ s_{k}}-\frac{B_k\ s_k \ s_{k}^{T}\ B_k}{s_{k}^{T}\ B_k \ s_k}\tag{3.3.9}$
对3.3.9公式应用两次应用Sherman-Morrison公式：
$G_{k+1}=G_k + \frac{(s_{k}^{T}\ y_k+y_{k}^{T}\ G_k \ y_k)(s_k \ s_{k}^{T})}{(s_{k}^{T}\ y_k)^2}-\frac{G_k\ y_k\ s_{k}^{T}+s_{k}\ y_{k}^{T}\ G_k }{s_{k}^{T}\ y_k}\tag{3.3.10}$