真正理解最小二乘法(更新中)
最小二乘法是一种拟合方法,用于对数据进行线性拟合。
例如,我们有以下房价数据,size
列为在售房屋的面积(平方米),price
为房屋的总价(千元)。
size | price |
---|---|
60 | 3581.583 |
61 | 2849.362 |
62 | 2911.82 |
63 | 2946.295 |
64 | 3731.809 |
… | … |
196 | 10248.65 |
197 | 10702.55 |
198 | 10100.39 |
199 | 9964.464 |
200 | 10614.15 |
从图中可以看出,很显然,size
和price
是线性正相关的,我们希望得到一个线性函数 y i = m x i + b y_i=mx_i+b yi=mxi+b 帮助我们量化考察房屋面积和其售价的关系。首先,我们需要制定一个标准,来考察我们得到的函数拟合结果的优劣。
如下图,对于一个点 ( x 0 , y 0 ) (x_0,y_0) (x0,y0),如果拟合的越好,则点 ( x 0 , y 0 ) (x_0,y_0) (x0,y0)到直线 y = m x + b y=mx+b y=mx+b的距离也就越小,我们使用真实值( y 0 y_0 y0)与预测值( m x 0 + b mx_0 + b mx0+b)差的在平方 ( y − m x 0 − b ) 2 (y - mx_0 - b)^2 (y−mx0−b)2考察函数 y = m x + b y=mx+b y=mx+b 拟合结果对点 ( x 0 , y 0 ) (x_0,y_0)