- 相关系数(R)
定义:变量之间线性相关的度量。分三种,spearman, pearson, kendall
公式:
解释:自变量X和因变量Y的协方差/标准差的乘积。
- 协方差:两个变量变化是同方向的还是异方向的。X高Y也高,协方差就是正,相反,则是负。
- 为什么要除标准差:标准化。即消除了X和Y自身变化的影响,只讨论两者之间关系。
- 因此,相关系数是一种特殊的协方差。
- 决定系数(R^2)
定义:对模型进行线性回归后,评价回归模型系数拟合优度。
公式:R2=SSR/SST=1-SSE/SST
SST (total sum of squares):总平方和
SSR (regression sum of squares):回归平方和
SSE (error sum of squares) :残差平方和。
解释:残差(residual):实际值与观察值之间的差异
在一组数据中,采用平均值做基线模型(图中黑线)
我们的模型(蓝线)都与这个黑线比较,来判断模型的好坏
var=sum(i-mean)^2