统计学习导论 Chapter4--Classification

Book: An Introduction to Statistical Learning
with Applications in R
http://www-bcf.usc.edu/~gareth/ISL/

这一章主要介绍了一些分类问题,当输出响应变量是 qualitative,例如 eye color is qualitative, taking on values blue, brown, or green.
Often qualitative variables are referred to as categorical

本章主要关注 三个经典的分类方法:logistic regression, linear discriminant analysis, and K-nearest neighbors

4.2 Why Not Linear Regression?
为什么不用线性回归方法来处理分类问题了? 主要是线性回归方法的输出不能和分类问题的类别建立有效的对应关系。
1)当我们改变输出类别的标记数,就会得到不同的线性回归模型,下面两个 Y 就会得到不同的回归模型
这里写图片描述
这里写图片描述
2) 如果我们使用 1;2;3 表示三个类别,使用线性回归方法的输出是 100,我们不知道其对应哪个类别

4.3 Logistic Regression
我们该如何对 p(X) = Pr(Y = 1|X) 和 X 这两个变量的关系进行建模了?(这里我们使用 0/1 表示 输出类别),在 Section 4.2 我们说使用一个线性回归模型来表示这些概率:
这里写图片描述
我们使用这个线性模型得到的结果有时会超出【0~1】的范围,These predictions are not sensible,所以我们需要避免这个问题,我们应该使用一个函数来建模 p(X),其对任何X 的输出都会在 0和1 之间,很多函数都可以满足这个要求。对于logistic regression 来说,我们使用 logistic function
这里写图片描述
为了拟合上述模型,我们使用 maximum likelihood 方法,后面我们会介绍该方法。
这里写图片描述

接着介绍了两个概念 odds 和 log-odds or logit
odds:
这里写图片描述

log-odds or logit:
这里写图片描述

4.3.2 Estimating the Regression Coefficients
公式(4.2)中的参数 β0 和 β1 是未知的,必须通过训练数据来估计。这里我们介绍 maximum likelihood 方法,最大似然方法用于 logistic regression model 拟合背后的 intuition 是:我们寻找这样的 β0 和 β1,它们能够使得我们观测到每个数据的 predicted probability 尽可能的符合default status。就是对每个观测的数据预测的类别都很接近真值,用估计的 β0 和 β1 对应的模型可能很好的拟合所有的训练数据。这个intuition 可以使用一个似然函数表示 likelihood function
这里写图片描述
Maximum likelihood 是一种常用的拟合非线性模型的方法,在linear regression setting,least squares 方法可以看作 maximum likelihood 的一个特殊情况。模型的拟合可以通过统计软件包里的相关函数很容易实现,所以我们不需要关注其拟合细节。

4.3.3 Making Predictions
we predict that the default probability for an individual with a balance of $1,000 is
这里写图片描述

4.3.4 Multiple Logistic Regression
这里写图片描述

4.3.5 Logistic Regression for > 2 Response Classes
多类别分类我们也可以使用 逻辑回归方法来处理,但是实际中更常用的方法是 Linear Discriminant Analysis,这就是下面我们要介绍的。

11

统计学习导论:R语言应用》是一本重要的统计学习教材,由Gareth James、Daniela Witten、Trevor Hastie和Robert Tibshirani合著。本书是统计学习领域的经典教材,旨在向读者介绍统计学习的基本概念、方法和应用,并通过R语言提供实际案例分析。 该书分为六个部分,包括预备知识、线性回归、分类方法、重抽样方法、线性模型选择与正则化、非线性回归以及树与集成方法。每个部分都包含理论概念和实践应用,并通过R语言演示和实例分析使读者能够理解统计学习的方法和技巧。 在预备知识部分,作者介绍了统计学习的基本概念和一些常用的数学和统计工具。线性回归部分介绍了最基本的回归分析方法,包括单一线性回归和多元线性回归。分类方法部分介绍了一些常见的分类算法,如K最近邻算法、逻辑回归和线性判别分析。 在重抽样方法部分,作者介绍了交叉验证和自助法等重抽样方法,可以用于估计模型在未知数据上的性能表现。线性模型选择与正则化部分介绍了特征选择和正则化技术,可以提高模型的泛化能力。非线性回归部分讨论了一些非线性回归模型,如多项式回归和样条回归。最后,树与集成方法部分介绍了决策树、随机森林和梯度提升树等集成方法,可用于解决复杂的分类和回归问题。 该书以R语言为工具,所有的示例和分析都是基于R语言实现的。通过实际案例的演示,读者可以学习如何使用R语言进行统计学习的建模和分析。此外,书中还提供了大量的编程练习和附带数据集,帮助读者巩固知识和提高实践能力。 《统计学习导论:R语言应用》不仅适合统计学、机器学习和数据科学的学生和研究人员,也适用于相关领域的实践者和对统计学习有兴趣的读者。它是一本理论与实践相结合的教材,为读者提供了学习统计学习的基础和工具,并引导读者理解和应用统计学习的方法和技巧。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值