线性回归算法梳理

线性回归精要

最新推荐文章于 2024-10-27 23:50:41 发布

转载最新推荐文章于 2024-10-27 23:50:41 发布 · 351 阅读

线性回归算法梳理

1、有监督：有监督学习是从标签化训练数据集中推断出函数的机器学习任务
2、无监督：根据类别未知(没有被标记)的训练样本解决模式识别中的各种问题，称之为无监督学习
3、泛化能力：指机器学习算法对新鲜样本的适应能力
4、过拟合是指为了得到一致假设而使假设变得过度严格。欠拟合是指模型拟合程度不高，数据距离拟合曲线较远，或指模型没有很好地捕捉到数据特征，不能够很好地拟合数据。
5、交叉验证：就是在给定的建模样本中，拿出大部分样本进行建模型，留小部分样本用刚建立的模型进行预报，并求这小部分样本的预报误差，记录它们的平方加和
6、线性回归是利用数理统计中回归分析，来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法，运用十分广泛。其表达形式为y = w'x+e，e为误差服从均值为0的正态分布
7、损失函数（loss function）或代价函数（cost function）是将随机事件或其有关随机变量的取值映射为非负实数以表示该随机事件的“风险”或“损失”的函数。
8、目标函数f(x)就是用设计变量来表示的所追求的目标形式，所以目标函数就是设计变量的函数，是一个标量。从工程意义讲，目标函数是系统的性能标准，比如，一个结构的最轻重量、最低造价、最合理形式；一件产品的最短生产时间、最小能量消耗；一个实验的最佳配方等等，建立目标函数的过程就是寻找设计变量与目标的关系的过程，目标函数和设计变量的关系可用曲线、曲面或超曲面表示。
9、梯度下降是迭代法的一种,可以用于求解最小二乘问题(线性和非线性都可以)。在求解机器学习算法的模型参数，即无约束优化问题时，梯度下降（Gradient Descent）是最常采用的方法之一，另一种常用的方法是最小二乘法。在求解损失函数的最小值时，可以通过梯度下降法来一步步的迭代求解，得到最小化的损失函数和模型参数值。反过来，如果我们需要求解损失函数的最大值，这时就需要用梯度上升法来迭代了。在机器学习中，基于基本的梯度下降法发展了两种梯度下降方法，分别为随机梯度下降法和批量梯度下降法。
10、多数方程不存在求根公式，因此求精确根非常困难，甚至不可能，从而寻找方程的近似根就显得特别重要。方法使用函数f(x)的泰勒级数的前面几项来寻找方程 f(x)=0的根。牛顿迭代法是求方程根的重要方法之一，其最大优点是在方程 f(x)=0的单根附近具有平方收敛，而且该法还可以用来求方程的重根、复根，此时线性收敛，但是可通过一些方法变成超线性收敛。另外该方法广泛用于计算机编程中。
11、拟牛顿法(Quasi-Newton Methods)是求解非线性优化问题最有效的方法之一。它只要求每一步迭代时知道目标函数的梯度。通过测量梯度的变化，构造一个目标函数的模型使之足以产生超线性收敛性
12、线性回归的指标：mse和rmse。这两者的量纲是一致的，但是在回归中预测不同的实际场景，比如一个预测股市，一个预测房价，比较MSE或者RMSE就不能比较谁好谁坏；所以将预测结果转换为准确度，结果都在[0, 1]之间，针对不同问题的预测准确度，可以比较并来判断此模型更适合预测哪个问题
13、sklearn包括分类，回归，降维和聚类四大机器学习算法