机器学习算法整理之Logistic Regression (LR) 逻辑斯谛回归：分类方法（对数线性模型）

最新推荐文章于 2024-09-10 14:26:22 发布

原创最新推荐文章于 2024-09-10 14:26:22 发布 · 827 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#LR #对数回归

机器学习专栏收录该内容

9 篇文章

订阅专栏

本文深入探讨了Logistic Regression（LR），包括sigmoid函数、二分类与多分类问题、参数估计方法以及其在工业问题上的应用。讨论了LR的优缺点，如在大数据、多重共线性及非线性特征处理方面的挑战。此外，还分享了样本处理策略，如离散化、特征选择和正则化，并提出了模型调优的建议，如选择合适的正则化和优化算法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

sigmoid 函数： $f(z)=\frac{1}{1+exp(-z)}$

二分类：

P (Y = 1 | x) = 1 1 + e x p ( - w T x ) = e x p ( w T x ) 1 + e x p ( w T x ) P (Y = 0 | x) = e x p ( - w T x ) 1 + e x p ( - w T x ) = 1 1 + e x p ( w T x ), w = (w 1, w 2, \dots, w n, b)

$P(Y=1|x)=\frac{1}{1+exp(-w^Tx)}=\frac{exp(w^Tx)}{1+exp(w^Tx)}\\ P(Y=0|x)=\frac{exp(-w^Tx)}{1+exp(-w^Tx)}=\frac{1}{1+exp(w^Tx)},w=(w_1,w_2,\cdots,w_n,b)$

对数几率：

概 率 p ， 对 数 几 率 ： l o g (p 1 - p) \to l o g (P ( Y = 1 | x ) P ( Y = 0 | x )) = w x \to 对 数 线 性 模 型

$概率p，对数几率：log(\frac{p}{1-p})\rightarrow log(\frac{P(Y=1|x)}{P(Y=0|x)})=wx\rightarrow对数线性模型$

参数估计：极大似然估计法

似 然 函 数 ： \prod i = 1 m P (Y = 1 | x)) y (i) P (Y = 0 | x)) 1 - y (i), h w (x (i)) = P (Y = 1 | x) 对 数 似 然 函 数 ： L (w) = \sum i = 1 m y (i) l o g (h w (x (i))) (1 - y (i)) l o g (1 - h w (x (i))) 梯 度 ： \partial L ( w ) \partial w j = \sum i = 1 m (y (i)) - h w (x (i)) x (i) j

$似然函数：\prod_{i=1}^mP(Y=1|x))^{y^{(i)}}P(Y=0|x))^{1-y^{(i)}},h_w(x^{(i)})=P(Y=1|x)\\ 对数似然函数：L(w) = \sum_{i=1}^my^{(i)}log(h_w(x^{(i)}))(1-y^{(i)})log(1-h_w(x^{(i)}))\\ 梯度：\frac{\partial L(w)}{\partial w_j}=\sum_{i=1}^m(y^{(i)})-h_w(x^{(i)})x^{(i)}_j\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;$

多分类问题softmax回归：

y (i) \in {1, 2, \dots, k}, P (Y = k | x) = e x p ( w T j x ) 1 + \sum k c = 1 e x p ( w T c x ) J (w) = - 1 m \sum i = 1 m \sum j = 1 k 1 {y (i) = j} l o g (e x p ( w T j x ( i ) ) \sum k c = 1 e x p ( w T c x ( i ) )) + λ Ω (w) \partial J ( w ) \partial w j = - 1 m \sum i = 1 m x (i) (1 {y (i) = j} - e x p ( w T j x ( i ) ) \sum k c = 1 e x p ( w T c x ( i ) )) + (正 则 项 梯 度)

$y^{(i)}\in\{1,2,\cdots,k\},P(Y=k|x)=\frac{exp(w_j^Tx)}{1+\sum_{c=1}^kexp(w_c^Tx)}\\ J(w)=-\frac{1}{m}\sum_{i=1}^m\sum_{j=1}^k1\{y^{(i)}=j\}log(\frac{exp(w_j^Tx^{(i)})}{\sum_{c=1}^kexp(w_c^Tx^{(i)})})+\lambda\Omega(w)\\ \frac{\partial J(w)}{\partial w_j}=-\frac{1}{m}\sum_{i=1}^mx^{(i)}(1\{y^{(i)}=j\}-\frac{exp(w_j^Tx^{(i)})}{\sum_{c=1}^kexp(w_c^Tx^{(i)})})+(正则项梯度)$

线性回归：

$f(x_i)=w^Tx_i\rightarrow w^*=\arg\min\limits_{w}\sum_{i=1}^m(f(x_i)-y_i)^2\rightarrow w^*=(x^Tx)^{-1}(x^Ty)$

线性判别分析LDA：

给定数据集，将样本投影到一条直线上，相同类别距离尽可能近，不同类别尽可能远

二分类：

投 影 前 ： μ 0, μ 1, Σ 0, Σ 1 \to 投 影 后 : w T μ 0, w T μ 1, w T Σ 0 w, w T Σ 1 w 同 类 样 本 尽 可 能 近 ： min w T Σ 0 w + w T Σ 1 w ； 异 类 样 本 尽 可 能 远 ： max ∥ w T μ 0 - w T μ 1 ∥ 22 学 习 目 标 ： max w J (w) = ∥ w T μ 0 - w T μ 1 ∥ 2 2 w T Σ 0 w + w T Σ 1 w = w T ( μ 0 - μ 1 ) ( μ 0 - μ 1 ) T w w T ( Σ 0 + Σ 1 ) w “ 类 内 散 度 矩 阵 ” ： S w = Σ 0 + Σ 1; “ 类 间 散 度 矩 阵 ” ： S b = (μ 0 - μ 1) (μ 0 - μ 1) T min w J (w) = w T S b w w T S w w \to min w T S w w s . t . w t S b w = 1 拉 格 朗 日 求 解 ： \partial - w T S w + λ ( w t S b w - 1 ) \partial w = 0 \to S b w = λ S w w \to S - 1 w S b w = λ w S b w = (μ 0 - μ 1) (μ 0 - μ 1) T w 的 方 向 恒 为 (μ 0 - μ 1) ， 不 妨 令 S b w = λ (μ 0 - μ 1) 则 ： w = S - 1 w (μ 0 - μ 1) 实 践 中 通 常 是 对 S w 进 行 奇 异 值 分 解 S w = U Σ V T 得 到 S - 1 w = V Σ - 1 U T

$投影前：\mu_0,\mu_1,\Sigma_0,\Sigma_1\rightarrow投影后: w^T\mu_0,w^T\mu_1,w^T\Sigma_0w,w^T\Sigma_1w\nonumber\\ 同类样本尽可能近：\min w^T\Sigma_0w+w^T\Sigma_1w；异类样本尽可能远：\max\Vert w^T\mu_0-w^T\mu_1\Vert_2^2\\ 学习目标：\max_wJ(w)=\frac{\Vert w^T\mu_0-w^T\mu_1\Vert_2^2}{w^T\Sigma_0w+w^T\Sigma_1w}=\frac{w^T(\mu_0-\mu_1)(\mu_0-\mu_1)^Tw}{w^T(\Sigma_0+\Sigma_1)w}\\ “类内散度矩阵”：S_w=\Sigma_0+\Sigma_1;“类间散度矩阵”：S_b=(\mu_0-\mu_1)(\mu_0-\mu_1)^T\\ \min_wJ(w)=\frac{w^TS_bw}{w^TS_ww}\rightarrow \min w^TS_ww\;\;\;\;s.t.\;w^tS_bw=1\\ 拉格朗日求解：\frac{\partial - w^TS_w+\lambda(w^tS_bw-1)}{\partial w}=0\rightarrow S_bw=\lambda S_ww\rightarrow S_w^{-1}S_bw=\lambda w\\ S_bw=(\mu_0-\mu_1)(\mu_0-\mu_1)^Tw的方向恒为(\mu_0-\mu_1)，不妨令S_bw=\lambda(\mu_0-\mu_1)\\ 则：w=S_w^{-1}(\mu_0-\mu_1)实践中通常是对S_w进行奇异值分解S_w=U\Sigma V^T得到S_w^{-1}=V\Sigma^{-1} U^T$

当两类数据同先验、满足高斯分布且协方差相等时，LDA可达到最优分类

多分类：

假 定 存 在 N 个 类 ， 第 i 类 样 本 数 为 m i ， 定 义 “ 全 局 散 度 矩 阵 ” ： S t = S b + S w = \sum i = 1 m (x i - μ) (x i - μ) T 其 中 S w = \sum i = 1 N S w i; S w i = \sum x \in X i (x i - μ i) (x i - μ i) T; 则 ： S b = S t - S w = \sum i = 1 N m i (μ - μ i) (μ - μ i) T 优 化 目 标 ： max W t r ( W T S b W ) t r ( W T S w W ) 其 中 W \in R d \times (N - 1), t r (\cdot) 表 示 矩 阵 的 迹 S b W = λ S w W, W 的 闭 式 解 则 是 S - 1 w S b 的 N - 1 个 最 大 广 义 特 征 值 对 应 的 特 征 向 量 组 成 的 矩 阵

$假定存在N个类，第i类样本数为m_i，定义“全局散度矩阵”：S_t=S_b+S_w=\sum_{i=1}^m(x_i-\mu)(x_i-\mu)^T\nonumber\\ 其中S_w=\sum_{i=1}^NS_{w_i};S_{w_i}=\sum_{x\in X_i}(x_i-\mu_i)(x_i-\mu_i)^T;则： S_b=S_t-S_w=\sum_{i=1}^Nm_i(\mu-\mu_i)(\mu-\mu_i)^T\\ 优化目标：\max_W\frac{tr(W^TS_bW)}{tr(W^TS_wW)}其中W\in R^{d\times(N-1)},tr(\cdot)表示矩阵的迹\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\\ S_bW=\lambda S_wW,W的闭式解则是S_w^{-1}S_b的N-1个最大广义特征值对应的特征向量组成的矩阵$

优缺点：

分析：解决工业规模问题最流行的算法；得到的是一个与每个观测样本相关的概率列表；逻辑回归在时间和内存需求上相当高效。它可以应用于分布式数据，并且还有在线算法实现，用较少的资源处理大型数据；对于数据中小噪声的鲁棒性很好，并且不会受到轻微的多重共线性的特别影响。严重的多重共线性则可以使用逻辑回归结合L2正则化来解决，不过如果要得到一个简约模型，L2正则化并不是最好的选择，因为它建立的模型涵盖了全部的特征；当你的特征数目很大并且还丢失了大部分数据时，逻辑回归就会表现得力不从心；

优点：

1.适合需要得到一个分类概率的场景

2.实现效率较高

3.对逻辑回归而言，多重共线性并不是问题，它可以结合L2正则化来解决；

4.逻辑回归广泛的应用于工业问题上

缺点：

1.当特征空间很大时，逻辑回归的性能不是很好；

2.不能很好地处理大量多类特征或变量；

4.对于非线性特征，需要进行转换；

5.依赖于全部的数据特征，当特征有缺失的时候表现效果不好；

6.可能容易欠拟合，分类精度不高。

应用经验

LR < SVM/GBDT/RandomForest ?
LR能以概率的形式输出结果，而非只是0,1判定
LR的可解释性强，可控度高(你要给老板讲的嘛…)
训练快，feature engineering之后效果赞
因为结果是概率，可以做ranking model
添加feature太简单…

2.关于样本处理

样本量太大怎么办？

离散化后用one-hot编码处理成0,1值
如果要用连续值，注意做scaling
试试spark Mllib
试试采样(注意采样方式：日期 or 用户 or 行为)

注意样本的平衡

对样本分布敏感
下采样(样本量足的情况下)，上采样(样本数量不太足)
修改loss function，给不同权重
采样后的predict结果，用作排序OK，用作判定请还原

3.关于特征处理

离散化

映射到高维空间，用linear的LR(快，且兼具更好的分割性)
稀疏化，0,1向量内积乘法运算速度快，计算结果方便存储，容易扩展；
离散化后，给线性模型带来一定的非线性
模型稳定，收敛度高，鲁棒性好
在一定程度上降低了过拟合风险

通过组合特征引入个性化因素

注意特征的频度

区分特征重要度

可以产出层次判定模型

聚类/Hash

增强了极度稀疏的特征表达力

减小了模型，加速运算

4.关于算法调优

假设只看模型

选择合适的正则化(L1, L2, L1+L2)
正则化系数C
收敛的阈值e，迭代轮数
调整loss function给定不同权重
Bagging或其他方式的模型融合
最优化算法选择(‘newton-cg’, ‘lbfgs’, ‘liblinear’, ‘sag’)
小样本liblinear，大样本sag，多分类‘newton-cg’和‘lbfgs’(当然你也可以用liblinear和sag的one-vs-rest)

机器学习算法整理之Logistic Regression (LR) 逻辑斯谛回归 ：分类方法（对数线性模型）

机器学习算法整理之Logistic Regression (LR) 逻辑斯谛回归：分类方法（对数线性模型）