贝塞尔(无偏估计)校正系数:
当我们对数据总体进行统计时,由于每一个数据都被使用到,所以计算得到的标准差和方差是能够准确体现整个数据集特征的。而当从总体中提取出某个样本时,该样本当中的数据在一定程度上会集中在某个范围之中,由此计算出来的标准差和方差不能准确体现出数据总体的情况,通常来说得到的结果会比总体的要小。
举一个例子,如果一个数据集满足高斯分布(Normal Distribution),那当我们提取样本的时候,数据基本上会集中在中间的部分,而边缘值的数目可能会比较少,所以最后得到的样本方差和样本标准差会比总体要小。
为了修正这个偏差,在计算样本的方差和标准差时,我们将使用 n-1 代替 n。这样处理后最直接的结果是,公式中的分母变小,得到的结果将会变大,能够更加准确地通过该样本预测总体的情况。
但是,这里有几点需要特别注意的:
- 这个校正方法会增大预测中的均方误差;
- 通常使用样本估计总体时,我们也无法得到总体的平均值,所以运算使用的平均值一般是通过样本数据得到的。求该平均值时我们还是除以 n , 而不是 n - 1;
- 通过上面第2点得到的对总体方差的预测属于带有偏差的方差估计。
来源:https://blog.youkuaiyun.com/sinat_36645384/article/details/80653754
y=α+βx的相关系数 β
β=cov(x,y)/var(x,y)