python多元线性回归

最新推荐文章于 2024-07-07 17:01:14 发布

原创最新推荐文章于 2024-07-07 17:01:14 发布 · 585 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#大数据

Python 专栏收录该内容

17 篇文章

订阅专栏

random_state 在需要设置random_state的地方给其赋一个值，当多次运行此段代码能够得到完全一样的结果，别人运行此代码也可以复现你的过程。若不设置此参数则会随机选择一个种子，执行结果也会因此而不同了。虽然可以对random_state进行调参，但是调参后在训练集上表现好的模型未必在陌生训练集上表现好，所以一般会随便选取一个random_state的值作为参数。

线性回归模型的评估可以根据RMSE来判断，

最小二乘法与梯度下降法的区别：

实现方法和结果不同：最小二乘法是直接对求导找出全局最小，是非迭代法。而梯度下降法是一种迭代法，先给定一个β ，然后向下降最快的方向调整β ，在若干次迭代之后找到局部最小。梯度下降法的缺点是到最小点的时候收敛速度变慢，并且对初始点的选择极为敏感，其改进大多是在这两方面下功夫。

“P>|t|”这一列来判断，这一列中我们可以选定一个阈值，比如统计学常用的就是0.05、0.02或0.01，这里我们就用0.05，凡是P>|t|这列中数值大于0.05的自变量，我们都把它剔除掉，这些就是和y线性关系不显著的自变量，所以都舍去，请注意这里指的自变量是x1到x9，不包括图3中const这个值。但是这里有一个原则，就是一次只能剔除一个，剔除的这个往往是P值最大的那个，比如图3中P值最大的是x4，那么就把它剔除掉，然后再用剩下的x1、x2、x3、x5、x6、x7、x8、x9来重复上述建模过程，再找出P值最大的那个自变量，把它剔除，如此重复这个过程，直到所有P值都小于等于0.05，剩下的这些自变量就是我们需要的自变量，这些自变量和y的线性关系都比较显著，我们要用这些自变量来进行建模。