Python机器学习预测分析核心算法1_python机器学习预测分析核心算法-优快云博客

本文链接：https://blog.youkuaiyun.com/qq_44649524/article/details/108962976

本文介绍了机器学习中的两种核心算法——惩罚线性回归和集成方法。惩罚线性回归通过减少自由度来避免过拟合，尤其适用于大量特征的问题。集成方法通过构建多个基学习器并结合其输出，如使用决策树的投票集成，来提高预测性能。集成方法通常能提供优于单一模型的性能，并允许评估结果的贡献。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

最近在学习Michael Bowles著的《Python 机器学习预测分析核心算法》，记录一下学习过程。

1.关于预测的两类核心算法

解决函数逼近问题的两类算法为：惩罚线性回归和集成方法。
1.1 什么是惩罚回归方法
惩罚线性回归方法是由普通最小二乘法衍生出来的。最小二乘法的一个根本问题就是有时它会过拟合。
来自所看教材
如上图左图，这是一个由6个点的数据集，通过普通最小二乘法拟合出的直线。如课本的假设，目标值为工资，特征值为男人的身高。那么这条直线就代表了对男人收入的最佳预测。
但是如果我们无法获取全部的点，假设只能获取六个点中的任意两个点，那么拟合出来的直线就取决于我们得到的两个点，如右图。
直线的自由度为2，而很明显，对在自由度与点数相同的情况下所做的预测并不能报以太大的信心。然而在很多时候点数甚至是小于自由度的，在这种情况下，惩罚线性回归就是最佳的选择了。
惩罚线性回归可以减少自由度使之与数据规模、问题的复杂度相匹配。尤其是在面对类似于基因问题或者是文本分类问题的时候，更是得到大量的使用。
1.2 什么是集成方法
集成方法的基本思想是构建多个不同的预测模型，然后将其输出做某种组合，如取平均值或采用多数人的意见（投票）。单个预测模型叫做基学习器。计算学习理论的研究结果证明只要基学习器比随机猜测稍微好些，集成方法就可以得到相当好的效果。
集成方法为了实现最广泛的应用通常将二元决策树作为它的基学习器。二