机器学习基础:从线性回归到多元回归
1. 相关性分析
在一些示例中,显著的相关性可能由以下原因导致:
- 小样本由于纯粹的偶然性容易显示出较高的相关性。
- 变量之间可能相互影响,难以确定因果关系。
- 相关变量可能受到一个或多个其他相关变量的影响。
确定因果关系导致的相关性时,领域知识或主题专家的参与非常重要。
2. 拟合斜率
我们尝试拟合一条斜率线,使每个点到该线的误差或残差尽可能小。由于误差可能为正或负,简单求和会得到零,因此我们对误差进行平方处理,然后求和,这样得到的斜率线也称为最小二乘线。
斜率方程为 (Y = mX + c),其中:
- (Y) 是给定 (X) 值的预测值。
- (m) 是 (y) 的变化量除以 (x) 的变化量,即 (x) 变量的斜率,表示 (x) 每增加一个单位时 (y) 增加的陡峭程度。
- (c) 是截距,表示线与轴的交点位置,当 (X = 0) 时,(Y) 的值为 (c)。
下面是使用 scikit-learn 库进行线性回归的代码示例:
# importing linear regression function
import sklearn.linear_model as lm
# Create linear regression object
lr = lm.LinearRegression()
x = df.Hours_Studied[:, np.newaxis] # independent vari
超级会员免费看
订阅专栏 解锁全文
1463

被折叠的 条评论
为什么被折叠?



