机器学习中关于回归模型有时候需要衡量自变量和因变量之间的相关度,接下来介绍两个衡量相关度的指标:
皮尔逊相关系数
它是用来衡量两个变量之间的相关度的;
取值:[-1,1]
该值>0 表示两个变量之间是正相关的,值为0表示两个变量之间无相关性,值<0表示两个变量之间是负相关的;
皮尔逊相关系数的计算公式可以表示为:
R平方值
也称为决定系数,反映因变量的全部变异能通过回归关系被自变量解释的比例
该值越高说明模型越好
比如 R平方值为0.8,表示在所有因变量(也就是y)的变化中,其中80%可以由该回归模型解释,也就是该回归模型可以解释因变量80%的变异,也就是说,如果我们控制自变量不变,那么因变量的变化程度可以减少80%
对于简单线性回归,R平方就是上面皮尔逊相关系数r的平方值
对于多元线性回归:
SST表示因变量整体的变异也就是y的整体变化,那其中一部分可以由我们的模型来解释 也就是第二项SSR,最后一部分就是对于y的整体变化除了模型解释的成分以外的误差项 也就是真实值和由模型估计值之间的差值 即第三项SSE(自然误差浮动)
SST=SSR+SSE
但是R平方也会有局限性,R平方会随着样本量的增大而增加,R平方和样本量是有关系的,因此我们要对R平方进行修正:
这里N就是样本量,p就是有多少值要进行预测
这样就可以抵消样本量对R平方的影响~~
实际中经常使用上面的修正值来评估线性模型对数据的拟合程度有多好~~~