线性回归:原理、实践与常见问题解决
1. 简单线性回归的一般解法
在某些情况下,仅求解前两个数据点就能以最小误差率解决问题。但在实际中,大多数真实数据并不像表格中呈现的那样干净,所以需要更通用的方法。
1.1 最小化整体平方误差
整体平方误差是所有观测值的实际值与预测值之差的平方和。我们考虑平方误差而非实际误差,是为了避免某些数据点的正误差与其他数据点的负误差相互抵消。例如,三个数据点的误差为 +5,另外三个数据点的误差为 -5,这六个数据点的总误差为 0,但平方误差将后三个数据点的 -5 误差转换为正数,整体平方误差变为 6 × 5² = 150。
最小化整体平方误差的原理如下:
1. 如果每个数据点都能被正确预测,那么整体误差就会最小化。
2. 一般来说,高估 5% 和低估 5% 的情况同样糟糕,因此我们考虑平方误差。
1.2 问题公式化
以下是一个年龄与体重关系的示例表格:
| 月龄 | 体重(kg) | 公式 | 当 a = 3 且 b = 0.75 时的体重估计值 | 估计值的平方误差 |
| — | — | — | — | — |
| 0 | 3 | 3 = a + b × (0) | 3 | 0 |
| 1 | 3.75 | 3.75 = a + b × (1) | 3.75 | 0 |
| 2 | 4.5 | 4.5 = a + b × (2) | 4.5 | 0 |
| 3 | 5.25 | 5.25 = a + b × (3) | 5.25 | 0 |
| 4 | 6 | 6 = a + b × (4)
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



