logistics regression

最新推荐文章于 2022-05-19 22:16:51 发布

原创最新推荐文章于 2022-05-19 22:16:51 发布 · 169 阅读

0 ·

CC 4.0 BY-SA版权

机器学习专栏收录该内容

8 篇文章

订阅专栏

本文深入解析逻辑回归原理，包括损失函数推导、成本函数计算及参数更新迭代公式，并演示使用鸢尾花数据集进行实验，同时介绍了多分类问题的解决方法——softmax回归。

逻辑回归

用于估算一个实例属于某个特定类别的概率。

logistic回归损失函数推导

罗列一些基本的公式：
$p^=hθ(X)=σ(θT⋅X) \hat{p} = h_\theta(X) = \sigma(\theta^T\cdot X)$
逻辑模型是一个sigmoid函数记作 $σ(⋅)\sigma(\cdot)$ ,它的输出为一个0-1之间数字。
逻辑函数：
$\sigma = \frac{1}{1+\exp(-t)}$
逻辑回归模型预测
$y^={0(p^<0.5)1(p^≥0.5) \hat{y} = \left\{ \begin{aligned} 0 (\hat{p}<0.5) \\ 1 (\hat{p}\ge0.5) \end{aligned} \right.$

逻辑回归成本函数推导过程

假定： $x;\theta) = h_\theta(x)$
$P(y=0∣x;θ)=1−hθ(x)P(y=0|x;\theta) = 1 - h_\theta(x)$
$p(y∣x;θ)=(hθ(x))y(1−hθ(x))1−yp(y|x;\theta) = (h_\theta(x))^y(1-h_\theta(x))^{1-y}$
do:
$\begin{aligned} L(\theta) &= \prod_{i=1}^mp_i^{y_i}(1-p_i)^{1-y_i} \\ &\Rightarrow l(\theta) = \sum_{i=1}^mln[p_i^{y_i}(1-p_i)^{1-y_i}] \\ & loss= -l(\theta) \end{aligned}$
log损失函数：
$J(θ)=−1m∑i=1m[yiln(pi)+(1−yi)ln(1−pi)]J(\theta) = -\frac{1}{m}\sum_{i=1}^m[y_iln(p_i) + (1-y_i)ln(1-p_i)]$

迭代公式推导公式

$\begin{aligned} \varrho(\theta) &= logL(\theta) \\ & = \sum_{i=1}^mlogh(x^{(i)}) + (1-y^{(i)})log(1-h(x^{(i)})) \\ \frac{\partial\varrho(\theta)}{\partial\theta_j} &= (y\frac{1}{g(\theta^Tx)} - (1-y)\frac{1}{1-g(\theta^Tx)}) \frac{\partial}{\partial\theta_j}g(\theta^Tx) \\ &=(y\frac{1}{g(\theta^Tx)}-(1-y)\frac{1}{1-g(\theta^Tx)})g(\theta^Tx)(1-g(\theta^Tx))\frac{\partial}{\partial\theta_j}\theta^Tx\\ & = (y(1-g(\theta^Tx)) - (1-y)g(\theta^Tx)x_j \\ & = (y-h_\theta(x))x_j \end{aligned}$
可以得到参数的迭代公式为：
$θj=θj+α(y(i)−hθ(x(i)))xj\theta_j = \theta_j + \alpha(y^{(i)} - h_\theta(x^{(i)}))x_j$
转化为向量形式为：
$θnextstep=θ−η⋅x(i).T(11−exp(−θT⋅x)−yi)\theta^{nextstep} = \theta - \eta\cdot x^{(i)}.T(\frac{1}{1-exp(-\theta^T\cdot x)} - y_i)$

实验演练

引入鸢尾花数据集。

from sklearn import datasets
iris = datasets.load_iris()

数据集里面有四个特征，当我们使用其中一个特征作为数据集的时候，
随着特征的线性变化会出现这种变化。
在这里插入图片描述

与是规模的具有相同的变化趋势。而判断的类别会以50%的可能性为边界来区分。
下图将更加清晰的给出了分类的边界。
在这里插入图片描述

这里我忘记写标签了，需要指出的是红色三角形代表的是鸢尾花，蓝色的原型代表的是非鸢尾花。

解读LogisticRegression函数（官方文档）

通过解读函数我们能够更加理解概念。并且验证我们的猜想。
逻辑回归默认的情况下正则化使用的是l2范数，且给出的目标函数为：
$\min_{w, c}\frac{1}{2}w^Tw + C\sum_{i=1}^nlog(exp(-y_i(X_i^Tw+c))+1)$
为了得到这个表达式只需推导上述公式。
$\begin{aligned} J(\theta) &= -\frac{1}{m}\sum_{i=1}^m[y_iln(p_i) + (1-y_i )ln(1-p_i)] \\ & = -y_ilog(exp(-X_i^Tw+c)+1) +(y_i-1)log(exp(c-X_i^Tw)+1) \end{aligned}$
根据 $y_i$ 的实际取值，让 $y_i$ 分别去值为0,1 可以得到与官网给定的公式一样。
l1正则化：
$\min_{w, c}||w||_1 + C\sum_{i=1}^nlog(exp(-y_i(X_i^Tw+c))+1)$
每个惩罚项对于求解器是否支持表（只挑选出了我认识的惩罚项）。

Penalties	liblinear	lbfgs	newton-cg	sag
Multinomial+L2	no	yes	yes	yes
Multinomial+L1	no	no	no	no
Elastic-Net	no	no	no	no
No penalty	no	yes	yes	yes
Faster for large datasets（对于大型数据集的解决速度）	no	no	no	yes
Robust to unscaled datasets（对于未缩放数据集是否保持健壮性）	yes	yes	yes	no

弹性网络仅由saga支持。
参数解读

penalty 选择正则惩罚项默认选择的是l2惩罚项。
dual 当样本数大于特征数的时候首选dual = False.
C 正则化强度的逆，必须是正的浮动，较小的中指定更强的正则化。
class_weight 指定初始化权重。
保留之前模型的参数数据。
n_jobs 设置cpu的核数。
max_iter 设置最大的迭代次数。
Note: 底层的C实现使用随机数生成器在拟合模型时选择特性，因此同一个模型每次运行的结果可能不同。可以使用较小的col参数。

softmax解决多分类问题

对于一个给定的实例X1,softmax回归首先计算出每个类别的得分然后再对这些分数应用softmax函数，估计每个类别的概率。
类别k的softmax分数：
$s_k(X) = \theta_k^T \cdot X$
参数 $θk\theta_k$ 表示k类别的参数，通常参数向量会存储在矩阵向量中。
Softmax函数
$pk^=σ(s(X))k=exp(sk(X))∑j=1Kexp(sj(X)) \hat{p_k} = \sigma(s(X))_k = \frac{exp(s_k(X))}{\sum_{j=1}^K exp(s_j(X))}$
给定一个样本，分别计算出每个权重对赢的成绩结果。
最终的预测结果就是：
$y^=argmaxmσ(s(X))k=argmaxsk(X)=argmax(θkT⋅X) \hat{y} = argmax_m\sigma(s(X))_k = argmax s_k(X) = argmax(\theta_k^T \cdot X)$
交叉熵成本函数
$J(θ)=−1m∑i=1m∑k=1Kyk(i)log(p^k(i)) J(\theta) = -\frac{1}{m}\sum_{i=1}^m\sum_{k=1}^Ky_k^{(i)}log(\hat{p}_k^{(i)})$
对于类别k的交叉熵梯度向量
$∇θkJ(θ)=1m∑i=1m(p^k(i)−yk(k))X(i) \nabla_{\theta_k} J(\theta)=\frac{1}{m}\sum_{i=1}^m(\hat{p}_k^{(i)} - y_k^{(k)})X^{(i)}$
通过该公式可以计算出每个公式的梯度向量。使用梯度下降法找到最小化成本函数的参数矩阵。
引入三类别的鸢尾花。

from sklearn.linear_model import LogisticRegression
softmax_reg = LogisticRegression(multi_class='multinomial', solver='lbfgs', C=10)
softmax_reg.fit(X, y) #训练模型