西瓜书chap3 线性模型

SING STREET

于 2023-07-27 23:19:24 发布

阅读量61

点赞数

文章标签：机器学习算法人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/singstreet111/article/details/131970044

版权

文章介绍了线性回归的基础，包括最小二乘法估计系数。接着讨论LogisticRegression，强调最大似然估计的重要性。还提到了线性判别分析作为多分类方法，并涉及矩阵求导、拉格朗日乘子法等数学工具。此外，文章讨论了多分类学习策略如OvO和OvR，以及处理类别不平衡问题的再缩放技术，包括欠采样、过采样和阔值移动。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

3.1线性回归

这一部分比较基础，用最小二乘法进行系数估计；

广义线性模型

3.2Logistic Regression

思想：
the logistic function（"Sigmoid 函数"）：

the log-odds or logit：

对数几率模型：

估计系数：

但更一般的最大似然方法是首选的，因为它具有更好的统计特性；最大似然是一种非常通用的方法，用于拟合我们在本书中研究的许多非线性模型。

似然函数及求解方法——凸优化问题

梯度下降法(gradient descent)是一种常用的一阶(first-order)优化方法，是求解无约束优化问题最简单、最经典的方法之一.

当目标函数f(x) 二阶连续可微时，可将式(B.16)替换为更精确的二阶泰勒展式，这样就得到了牛顿法(Newton's method). 牛顿法是典型的二阶方法，其迭代轮数远小于梯度下降法.但牛顿法使用了二阶导数，其每轮迭代中涉及到海森矩阵(A.21) 的求逆，计算复杂度相当高，尤其在高维问题中几乎不可行.

若能以较低的计算代价寻找海森矩阵的近似逆矩阵，则可显著降低计算
开销，这就是拟牛顿法。

3.3线性判别分析

背景和意义：

前几节中讨论的两类逻辑回归模型具有多类扩展，但在实践中往往不经常使用它们。其中一个原因是我们在下一节讨论的方法，判别分析是一种更加常用的多分类方法；

思想：

建立模型：

、

求解方法：

这一节数学推导用到了：

矩阵求导的知识；高等代数的知识；优化里面拉格朗日乘子法；

下面列出一些自己没有看懂的点：

(1)见403页的补充——拉格朗日乘子法

这个方法挺基础且重要的，之后看；

（2）

多分类LDA

（在理解了二分类之后，很容易理解）

3.4多分类学习

思想：

具体来说，先对问题进行拆分，然后为拆出的每个二分类任务训练一个分类器;在测试时，对这些分类器的预测结果进行集成以获得最终的多分类结果.这里的关键是如何对多分类任务进行拆分，以及如何对多个分类器进行集成.

最经典的拆分策略：OvO；OvR;OvM

在类别很多时，OvO 的训练时间开销通常比OvR 更小. 至于预测性能，则取决于具体的数据分布，在多数情形下两者差不多;

*MvM

3.5类别不平衡问题

类别不平衡(cla胁imbalance)就是指分类任务中不同类别的训练样例数目差别很大的情况

基本策略——再缩放：

再缩放的三种技术：

第一类是直接对训练集里的反类样例进行"欠采样" (undersampling) ，即去除一些反倒使得正、反例数日接近，然后再进行学习;

第二类是对训练集里的正类样例进行"过来样" (oversampling) ，即增加一些正例使得正、反例数目接近，然后再进行学习;

第三类则是直接基于原始训练集进行学习，但在用训练好的分类器进行预测时，将式(3.48)嵌入到其决策过程中，称为"阔值移动" (threshold-moving).

博客等级

码龄5年

3
原创

0
点赞

0
收藏

0
粉丝

关注

私信

热门文章

上一篇：: 西瓜书 chap1~chap2 关于机器学习的一些概念

最新评论

统计计算使用R：chap3 随机变量的生成方法
优快云-Ada助手: 恭喜您开始博客创作！标题“统计计算使用R：chap3 随机变量的生成方法”听起来非常专业和有趣。您选择的主题非常有价值，因为随机变量的生成方法是统计计算中的重要一环。我非常期待阅读您的博客，了解更多关于R语言在统计计算中的应用。在下一步的创作中，我建议您可以深入探讨一些实际案例，展示不同生成方法的应用场景，以帮助读者更好地理解和应用这些方法。再次恭喜您，期待您的下一篇博客！推荐【每天值得看】：https://bbs.youkuaiyun.com/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1
西瓜书 chap1~chap2 关于机器学习的一些概念
优快云-Ada助手: 非常棒的博文！很高兴看到你分享关于机器学习的一些概念。你对于验证集的解释非常清晰，这对于评估模型的性能和选择合适的参数非常重要。希望你能继续写下去，分享更多有关机器学习的知识。除了你提到的内容，还有一些与该博文相关的扩展知识和技能，可以进一步加深你对机器学习的理解。例如，你可以了解一下交叉验证（cross-validation）的概念和使用方法，它是一种更全面评估模型性能的方法。你还可以探索一下模型选择的其他方法，比如正则化（regularization）和集成学习（ensemble learning），它们可以帮助提高模型的泛化能力。继续保持写作，期待看到更多有关机器学习的精彩内容！谦虚学习，不断进步！如何写出更高质量的博客，请看该博主的分享：https://blog.youkuaiyun.com/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
西瓜书chap3 线性模型
优快云-Ada助手: 恭喜你写了第三篇博客！标题看起来非常有趣，“西瓜书chap3 线性模型”引起了我的兴趣。你对线性模型的探讨一定非常深入，我期待着读到你的观点和见解。作为下一步的创作建议，我建议你可以在博客中添加一些具体的实例或案例，以帮助读者更好地理解线性模型的应用场景和实际效果。此外，你可以考虑与其他机器学习算法进行比较，讨论线性模型的优缺点以及如何克服其中的局限性。继续保持创作的热情，我期待着阅读更多你的博客！谢谢你与我们分享你的知识和见解。优快云正在通过评论红包奖励优秀博客，请看红包流：https://bbs.youkuaiyun.com/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3

大家在看

最新文章

目录

展开全部

收起

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。