算法篇：SGD+logistic+Adaboost构建快速迭代增强式LR模型

本文链接：https://blog.youkuaiyun.com/yc_1993/article/details/51043779

本文介绍了如何构建增强式的快速迭代logistics分类器，结合随机梯度下降(SGD)、逻辑回归(Logistic)和Adaboost算法。通过R语言实证分析，展示了在信贷风险评估中的应用，达到了90%以上的预测准确率，并与其他算法进行了对比评估。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

写在最前：
- 之前在新浪开个博客写东西，总有些不方便，后来看了优快云，内置Markdown，写起来突感一见如故，十分感动。
- 工作中由于经常需要做一些可视化和算法类的研究，所以开个优快云总结和记录一下。

下面主要讲的是近几个月来的一些研究成果，通过构建增强式的快速迭代logistics判别分类器，就是通过组合随机梯度（SGD），提升算法（adaboost），logistics模型。
具体地：通过利用SGD估计每个logistics弱分类器参数，同时基于每个弱分类器，通过adaboost更新样本的权重以及计算每个分类器权重，最后组合多个弱分类器，构成一个强分类输出判别。

理论概述

1. 随机梯度算法概述

　　梯度算法在机器学习常被用于参数的迭代估计，当维度与样本数大幅上升时，其表现出的估计性能与速度也十分可观。
假设如下方程 $h_\theta(x)$ ：

h θ (x) = θ 0 + θ 1 x 1 + θ 2 x 2 + \cdot \cdot \cdot

$h_\theta(x)=\theta_0+\theta_1x_1+\theta_2x_2+···$
　　其中

θi(0⩽i⩽n，n为样本维度) $\theta_i(0\leqslant i \leqslant n，n为样本维度)$ 为变量

xi $x_i$ 对应参数，为简化上述式子，通过将

x0=1 $x_0 = 1$ 加入

hθ(x) $h_\theta(x)$ ，可以得到：

h θ (x) = \sum i = o n θ i x i = θ T X (1)

$h_\theta(x)= \sum_{i=o}^n \theta_ix_i = \theta^TX　　　(1)$
　　其中

θT和X $\theta^T 和 X$ 为系数和变量对应向量表达式。
　　再定义如下损失函数

J(θ) $J(\theta)$ ：
　　

J (θ) = 1 2 \sum j = 1 m (h θ (x (j)) - y (j)) 2 (2)

$J(\theta) = \frac{1}{2}\sum_{j=1}^m (h_\theta(x^{(j)})-y^{(j)})^2　　(2)$
　　其中

hθ(x(j)) $h_\theta(x^{(j)})$ 为对应第j个样本

x(j) $x^{(j)}$ 代入

hθ(x) $h_\theta(x)$ 得到的结果，m为样本个数，需要注意的是，梯度算法一般用于有监督或半监督式机器学习，而常量

y(j) $y^{(j)}$ 的存在是为了训练样本得到更加准确的

θ $\theta$ 参数。另外，系数0.5是为了求导方便而乘上的，对结果并无影响。
　　据此，为最小化上述

J(θ) $J(\theta)$ 损失函数，我们通过

θ $\theta$ 自适迭代，达到一个理想的估计值，使得：
　　

J (θ) ⩽ ϵ

$J(\theta)\leqslant \epsilon$
　　其中

ϵ $\epsilon$ 为误差率，为方便理解，我们从Batch gradient descent(批梯度下降说起)，有如下式子：
　　

θ i = θ i - α \partial \partial θ i J (θ) (3)

$\theta_i = \theta_i - \alpha\frac{\partial}{\partial\theta_i}J(\theta)　　(3)$
　　其中

α $\alpha$ 为梯度步长，也称为学习因子，其大小决定了梯度下降的速度，越大的步长则学习速度也越快，但同时振荡往返也会加剧，有时反而使得速度变慢，同时若梯度步长太小，也会使得速度变慢，而容易陷入局部极小。
　　结合(2)式和(3)式，假设只有一个样本，则可以得到：
　　

θ i = θ i - α \partial \partial θ i J (θ) = θ i - α \partial \partial θ i J (1 2 (h θ (x) - y) 2) = θ i - α (2 \cdot 1 2 (h θ (x) - y) \cdot \partial \partial θ i (h θ (x) - y)) = θ i - α (h θ (x) - y) x i

$\begin{align} \theta_i & = \theta_i - \alpha\frac{\partial}{\partial\theta_i}J(\theta) \\ 　　& =\theta_i - \alpha\frac{\partial}{\partial\theta_i}J(\frac{1}{2}(h_\theta(x)-y)^2)\\ 　　& = \theta_i - \alpha(2·\frac{1}{2}(h_\theta(x)-y)·\frac{\partial}{\partial{\theta_i}}(h_\theta(x)-y))\\ 　　& = \theta_i - \alpha(h_\theta(x)-y)x_i 　　\end{align}$
　　其中i表示样本维度i，当样本数为m时，则：

θ i = θ i - α \partial \partial θ i = θ i - α (\sum j = 1 m (h θ (x (j)) - y (j))) \cdot \partial \partial θ i (\sum j = 1 m (h θ (x (j)) - y (j))) = θ i - α (\sum j = 1 m (h θ (x (j)) - y (j))) \cdot (\sum j = 1 m x (j) i)

$\begin{align}\theta_i&=\theta_i-\alpha\frac{\partial}{\partial\theta_i}\\ &=\theta_i-\alpha(\sum_{j=1}^m(h_\theta(x^{(j)})-y^{(j)}))·\frac{\partial}{\partial\theta_i}(\sum_{j=1}^m(h_\theta(x^{(j)})-y^{(j)}))\\ &=\theta_i-\alpha(\sum_{j=1}^m(h_\theta(x^{(j)})-y^{(j)}))·(\sum_{j=1}^mx_i^{(j)}) \end{align}$
　　其中j表示样本j。
　　可以看出，每次迭代都要遍历m个样本，当样本数量太大时，其复杂度

O(m) $O(m)$ 也成线性上升，这在一定程度上制约了迭代的速度，所以，基于此，Stochastic gradient desent（随机梯度）应运而生，其在一定程度降低了批梯度的遍历量，复杂度从

O(m) $O(m)$ 降为

O(1) $O(1)$ ，但同时也带来了其他问题–迭代次数和局部最小值，由于随机性的存在，随机梯度将在随机样本点的周围四处扩散，并最终步入“谷底”，但是过程会稍微曲则，且改“谷底”可能是局部而不是全局。
　　其表达式如下：
　　

θ i = θ i - α (h θ (x (j)) - y (j)) x (j) i (5)

$\theta_i=\theta_i-\alpha(h_\theta(x^{(j)})-y^{(j)})x_i^{(j)}　　(5)$
　　需要说明的是，当用于判别分类算法中时，其中

x(j)i $x_i^{(j)}$ 表示误判点的第i维。
　　其中如上文所述，由于随机路径梯度下降，所以容易陷入局部最优，一个较好的解决办法是赋予多次不同的初始值，同时结合判别误差率作为跳出条件。
　　为更形象理解批梯度和随机梯度，下图3、4为批梯度下降路径和随机梯度下降路径：
　　批梯度+随机梯度