Logistic Regression、Linear Discriminant Analysis、Shrinkage Methods（Ridge Regression and Lasso）

最新推荐文章于 2023-08-22 13:13:16 发布

Xurtle

最新推荐文章于 2023-08-22 13:13:16 发布

阅读量4.9k

点赞数 2

CC 4.0 BY-SA版权

分类专栏：机器学习文章标签：逻辑回归 LDA 岭回归 Lasso

本文链接：https://blog.youkuaiyun.com/xlinsist/article/details/52211334

本文介绍了Logistic Regression、Linear Discriminant Analysis（LDA）和Shrinkage Methods（Ridge Regression及Lasso）在分类任务中的应用。Logistic Regression通过最大似然估计来建模分类概率，LDA则利用贝叶斯定理和正态分布假设进行分类，尤其在类别间方差相等时表现良好。Shrinkage方法通过引入正则化项降低模型复杂度，Ridge Regression通过L2范数惩罚项，而Lasso（L1正则化）能够产生稀疏模型。文章讨论了不同方法在不同情况下的适用性和优劣，并提供了相关Python实现。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

引言

本篇文章主要偏向于实际应用的目标，我会把详细的python代码专门写在 jupyter notebook上。这篇文章主要介绍了一些关于应用Logistic Regression，LDA和Shrinkage Methods的一些要点，让你在实际应用中可以更好地发挥各个模型的优势，这篇文章全部来自于对An Introduction to Statistical Learning的总结，如果你有相关的统计学基础，你可以很快读懂文章，并结合到实际的应用，如果你没有相应的基础，希望你参考我的这篇文章：学好机器学习必会的统计学知识。

这是与本篇文章相对应地python代码和一些数据集，请点我

Logistic Regression

Default数据集描述，详细信息在第6页。

logistic regression 是一个线性模型用于做分类的，它直接对Y属于某个类别的概率进行建模。比如对于Default数据集来说，Pr(default = Yes | balance, student, income). 这也就是说，对于任何给定的balance, student, income的值，我都可以求出default = Yes的概率。如果我设定阙值为0.3，那么只要Pr(default = Yes | balance, student, income) > 0.3，我就预测default的结果为Yes.

既然logistic regression是对概率进行建模，因此我们需要一个函数的输出在0到1之间。有很多函数符合这个性质，但是在logistic regression中，我们用logistic function，公式如下：

p (X) = e β 0 + β 1 X 1 + \dots + β p X p 1 + e β 0 + β 1 X 1 + \dots + β p X p

$p(X) = \frac{e^{\beta_0 + \beta_1X_1 + \dots + \beta_pX_p}}{1 + e^{\beta_0 + \beta_1X_1 + \dots + \beta_pX_p}}$

那么我们如如何来估算Logistic Regression的要参数呢？答案是用maximum likelihood. 比如，我们对Pr(default = Yes | X)来进行建模，把估算出的一系列参数插入到模型中，使得所有defaulted人的概率接近1，使得所有没有defaulted人的概率接近0. 我们可以把这样的想法写成一个数学公式表达出来：

l (β 0, β 1, \dots, β p) = \prod i : y i = 1 p (x i) \prod i' : y i' = 0 (1 - p (x i'))

$l(\beta_0, \beta_1, \dots, \beta_p) = \prod_{i : y_i = 1} p(x_i) \prod_{i ': y_{i'} = 0} (1 - p(x_{i'}))$

我们目的是找出一系列参数来最大化上面的likelihood函数。

Linear Discriminant Analysis

Logistic regression用logistic函数直接对Pr(Y = k|X = x)建模。而LDA用一种间接的方法去估算这些概率。LDA对每个response中X的分布进行建模，然后用Bayes理论去反转去估算Pr(Y = k|X = x). 如果每个response中X的分布为正态分布，那么LDA与logistic regression模型是非常相似的。LDA相比于logistic regression模型有以下3个优势：

当类别能well-separated时, logistic regression模型的参数估计是非常不稳定的，而LDA并没有这样的问题。
如果数据集中的样本很少并且每个类别中的X是接近正态分布的，那么LDA也要比logistic regression模型更加稳定。
当我们的response超过2个类别时，LDA是更受欢迎的。

假设我们一共有k个类别，Bayes 理论可以写成如下公式：

P r (Y = k | X = x) = π k f k ( x ) \sum K l = 1 π l f l ( x )

$Pr(Y = k | X = x) = \frac{\pi_k f_k(x)}{\sum_{l = 1}^K \pi_lf_l(x)}$

$\pi_k:$ 第k个类别的prior probability
$f_k(x):$ 第k个类别中X的density function
以后我们会把Pr(Y = k | X = x)简写成 $p_k(X)$ ，称为posterior probability

LDA总体的思路已经被浓缩在上面的一个公式中了。LDA的主要目标就是估算出prior probability和density function，之后我们就可以在给定X的情况下，分别求出属于各个类别的概率。想要估算出density function，我们必须假设它的形式，在LDA中，我们的假设都是正态分布。