多元线性回归
先看下数据:50_Startups.csv,相应的数据可以在:https://github.com/Avik-Jain/100-Days-Of-ML-Code/blob/master/datasets/50_Startups.csv中下载(右击“Raw”然后另存为即可),多元线性回归方程式:y=b0+b1x1+b2x2+…+bnxn
回归分析的前提假设:
假设一:线性(Linearity),自变量和因变量的关系是线性的;
假设二:同方差性(Homoscedasticity),误差项方差应是常数;
假设三:多元正态性(Multivariate Normality),误差项符合正态分布;
假设四:缺乏多重共线性(Lack of Multicollinearity),自变量间相互独立。
虚拟变量陷阱:
分类变量不是numeric的,所以要将变量转换成虚拟变量,比如男和女,在回归模型中,“性别”这个变量,可虚拟出“男”和”女”两个变量,男性的话“男”值为1,”女”值为0;女性的话“男”值为0,”女”值为1;这里所说的虚拟变量陷阱是两个或多个变量高度相关的情况,简单地说,一个变量可以从其他变量中预测出来,那么这里就有一个重复的类别:如果我们去掉了男性类别(零女性值表示男性,反之亦然)。所以虚拟变量要比实际变量的种类少一个。
1.数据预处理:参见Day 1;
import numpy
import pandas