PySpark线性回归与广义线性模型

最新推荐文章于 2024-07-30 16:41:36 发布

原创

最新推荐文章于 2024-07-30 16:41:36 发布 · 1.8k 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #人工智能 #spark #数据挖掘

本文介绍了如何在PySpark中使用线性回归、岭回归、LASSO回归及广义线性模型（包括泊松回归）进行销量预测，探讨了多元线性问题、正则化方法和非正态数据处理。

PySpark线性回归与广义线性模型

本文为销量预测第7篇：线性回归与广义线性模型
第1篇：PySpark与DataFrame简介
第2篇：PySpark时间序列数据统计描述，分布特性与内部特性
第3篇：缺失值填充与异常值处理
第4篇：时间序列特征工程
第5篇：特征选择
第6篇：简单预测模型
第8篇：机器学习调参方法
第9篇：销量预测建模中常用的损失函数与模型评估指标

本节从原理和代码上讲解销量预测任务中使用到的Spark.ML内置线性回归模型和广义线性模型。

1.线性回归

回归分析是预测建模中最为基础的技术，通过拟合回归线(regression line)建立输入变量与目标变量之间的线性关系，构建损失函数，求解损失函数最小时的参数w和b。表达式如下：

$\hat{y}=w x+b\\ 其中,y是因变量,\ x是自变量, \ w是斜率, \ b为截距;$
损失函数为：
$b)=\frac{1}{n} \sum_{i=1}^{n}\left(w x_{i}+b-y_{i}\right)^{2}$

利用梯度下降(gradient descent)迭代更新（针对w和b求偏导）。
$\leftarrow W-\alpha \frac{\partial J(W)}{\partial W} \\ b \leftarrow b-\alpha \frac{\partial L}{\partial b}$

线性回归模型计算效率高，可解释强，具有完备的数量统计理论支撑等优点，作为基础模型广泛使用在回归建模任务中，但也存在针对非正态分布的数据，线性表达能力较弱，若多个自变量间存在共线性，求解的模型参数不稳定，导致预测能力下降等问题，故有下文提到的Ridge Regression、LASSO Regression以及广义线性回归来解决或补充。

2.岭回归(Ridge Regression)与LASSO回归(LASSO Regression)

当使用最小二乘法计算线性回归模型参数时，如果数据特征之间存在多重共线性，那么最小二乘法对输入变量中的噪声非常敏感，其解会变得极为不稳定。为了解决这个问题，就有了岭回归（Ridge Regression ）。

岭回归(Ridge Regression)是在一般线性回归的基础上加入L2正则项，通过限制参数权重(回归)系数，使weight不会变得特别大，则模型对输入特征中的噪声敏感度就会降低，故在保证最佳拟合误差的同时，参数尽可能的“简单”，模型的泛化能力得以增强,岭回归公式如下：

$J(\theta)=\frac{1}{m} \sum_{i=1}^{m}\left(y^{(i)}-\left(w x^{(i)}+b\right)\right)^{2}+\lambda\|w\|_{2}^{2}\\ =M S E(\theta)+\lambda \sum_{i=1}^{n} \theta_{i}^{2}$