Logistic Regression、Linear Discriminant Analysis、Shrinkage Methods(Ridge Regression and Lasso)

本文介绍了Logistic Regression、Linear Discriminant Analysis(LDA)和Shrinkage Methods(Ridge Regression及Lasso)在分类任务中的应用。Logistic Regression通过最大似然估计来建模分类概率,LDA则利用贝叶斯定理和正态分布假设进行分类,尤其在类别间方差相等时表现良好。Shrinkage方法通过引入正则化项降低模型复杂度,Ridge Regression通过L2范数惩罚项,而Lasso(L1正则化)能够产生稀疏模型。文章讨论了不同方法在不同情况下的适用性和优劣,并提供了相关Python实现。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

引言

本篇文章主要偏向于实际应用的目标,我会把详细的python代码专门写在 jupyter notebook上。这篇文章主要介绍了一些关于应用Logistic Regression,LDA和Shrinkage Methods的一些要点,让你在实际应用中可以更好地发挥各个模型的优势,这篇文章全部来自于对An Introduction to Statistical Learning的总结,如果你有相关的统计学基础,你可以很快读懂文章,并结合到实际的应用,如果你没有相应的基础,希望你参考我的这篇文章:学好机器学习必会的统计学知识

这是与本篇文章相对应地python代码和一些数据集,请点我

Logistic Regression

Default数据集描述,详细信息在第6页。

logistic regression 是一个线性模型用于做分类的,它直接对Y属于某个类别的概率进行建模。比如对于Default数据集来说,Pr(default = Yes | balance, student, income). 这也就是说,对于任何给定的balance, student, income的值,我都可以求出default = Yes的概率。如果我设定阙值为0.3,那么只要Pr(default = Yes | balance, student, income) > 0.3,我就预测default的结果为Yes.

既然logistic regression是对概率进行建模,因此我们需要一个函数的输出在0到1之间。有很多函数符合这个性质,但是在logistic regression中,我们用logistic function,公式如下:

p(X)=eβ0+β1X1++βpXp1+eβ0+β1X1++βpXp

那么我们如如何来估算Logistic Regression的要参数呢?答案是用maximum likelihood. 比如,我们对Pr(default = Yes | X)来进行建模,把估算出的一系列参数插入到模型中,使得所有defaulted人的概率接近1,使得所有没有defaulted人的概率接近0. 我们可以把这样的想法写成一个数学公式表达出来:

l(β0,β1,,βp)=i:yi=1p(xi)i:yi=0(1p(xi))

我们目的是找出一系列参数来最大化上面的likelihood函数。

Linear Discriminant Analysis

Logistic regression用logistic函数直接对Pr(Y = k|X = x)建模。而LDA用一种间接的方法去估算这些概率。LDA对每个response中X的分布进行建模,然后用Bayes理论去反转去估算Pr(Y = k|X = x). 如果每个response中X的分布为正态分布,那么LDA与logistic regression模型是非常相似的。LDA相比于logistic regression模型有以下3个优势:

  1. 当类别能well-separated时, logistic regression模型的参数估计是非常不稳定的,而LDA并没有这样的问题。
  2. 如果数据集中的样本很少并且每个类别中的X是接近正态分布的,那么LDA也要比logistic regression模型更加稳定。
  3. 当我们的response超过2个类别时,LDA是更受欢迎的。

假设我们一共有k个类别,Bayes 理论可以写成如下公式:

Pr(Y=k|X=x)=πkfk(x)Kl=1πlfl(x)

  • πk: 第k个类别的prior probability
  • fk(x): 第k个类别中X的density function
  • 以后我们会把Pr(Y = k | X = x)简写成 pk(X) ,称为posterior probability

LDA总体的思路已经被浓缩在上面的一个公式中了。LDA的主要目标就是估算出prior probability和density function,之后我们就可以在给定X的情况下,分别求出属于各个类别的概率。想要估算出density function,我们必须假设它的形式,在LDA中,我们的假设都是正态分布。

只有一个特征的LDA

我们已经假设 fk(x) 是normal的,在one-dimensional的情况下,normal density的形式如下:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值