回归类算法中,有两种不同的角度来看待回归的效果:
第一,是否预测到了正确的数值。
第二,是否拟合到了足够的信息。
上篇博文已经讨论了第一种角度,本文讨论第二种角度:
是否拟合了足够的信息
对于回归类算法而言,只探索数据预测是否准确是不够的。除了数据本身的数值大小之外,还希望模型能够捕捉到数据的“规律”,比如数据的分布规律、单调性等,而是否捕获了这些信息并无法使用MSE来衡量。
上图,红色线是真实标签,蓝色线是拟合模型。这是一种比较极端,但的确可能发生的情况。这张图像上,前半部分的拟合非常成功,看上去真实标签和预测结果几乎重合,但后半部分的拟合却非常糟糕,模型向着与真实标签完全相反的方向去了。对于这样的一个拟合模型,如果使用MSE判断,它的MSE会很小,因为大部分样本其实都被完美拟合了,少数样本的真实值和预测值的巨大差异在被均分到每个样本上之后,MSE就会很小。但这样的拟合结果必然不是一个好结果,因为一旦新样本是处于拟合曲线的后半段的,预测结果必然会有巨大的偏差。所以,希望找到新的指标,除了判断预测的数值是否正确之外,还能够判断模型是否拟合了足够多的,数值之外的信息。
降维算法PCA通过使用方差来衡量数据上的信息量。如果方差越大,代表数据上的信息量越多,此信息量不仅包括数值的大小,还包括希望模型捕捉的那些规律。
为了衡量模型对数据上的信息量的捕捉,定义了R2R^2R2来帮助我们:
R2=1−∑i=0m(yi−y^i)2∑i=0m(yi−yˉi)2=1−RSS∑i=0m(yi−yˉi)2R^2=1-\large{\frac{\sum_{i=0}^m(y_i-\hat{y}_i)^2}{\sum_{i=0}^m(y_i-\bar{y}_i)^2}}\small=1-\large{\frac{RSS}{\sum_{i=0}^m(y_i-\bar{y}_i)^2}}R2=1−∑i=0m(yi−yˉi)2