数值数据预测:回归方法详解
1. 相关性与回归基础
在数据分析中,相关性的强弱判断因数据类型而异。对于涉及人类的数据,相关系数为 0.5 可能被认为是非常高的;而对于机械过程生成的数据,相关系数 0.5 可能很弱。测量两个变量之间的相关性,能让我们快速检查自变量和因变量之间的线性关系。随着我们开始定义包含更多预测变量的回归模型,这种检查变得愈发重要。
2. 多元线性回归
在现实世界的大多数分析中,往往存在多个自变量。因此,在大多数数值预测任务中,我们很可能会使用多元线性回归。以下是多元线性回归的优缺点:
| 优点 | 缺点 |
| — | — |
| 是对数值数据进行建模最常用的方法 | 对数据有较强的假设 |
| 几乎可以适应任何建模任务 | 模型形式必须由用户预先指定 |
| 能提供特征与结果之间关系的大小和强度的估计 | 无法处理缺失数据 |
| | 仅适用于数值特征,分类数据需要额外处理 |
| | 需要一定的统计知识来理解模型 |
多元线性回归可视为简单线性回归的扩展。两者的目标相似,都是找到使线性方程预测误差最小的斜率系数值。关键区别在于,多元线性回归为额外的自变量增加了额外的项。
需要注意的是,“相关性并不意味着因果关系”。相关性仅描述了一对变量之间的关联,可能存在其他未被考虑的因素导致观察到的关系。例如,预期寿命和每天看电影的时间之间可能存在很强的相关性,但在医生建议我们都多看电影之前,我们需要排除另一种解释:年轻人看电影更多,而年轻人通常不太可能死亡。
多元回归模型的形式如下:
[y = \alpha + \beta_1
超级会员免费看
订阅专栏 解锁全文
959

被折叠的 条评论
为什么被折叠?



