学习一下方差(variance),标准差(StandardDeviation),协方差(Covariance),协方差矩阵(Covariance Matrix)
1、方差 Variance
方差是各个数据与平均数之差的平方的平均数,方差反应了总体样本的波动情况。
方差公式,一般简单的这样写:
(1) σ 2 = ∑ i = 1 n ( x i − μ ) 2 n \sigma^{2} = \sum_{i=1}^{n}\frac{(x_i-\mu)^2}{n} \tag 1 σ2=i=1∑nn(xi−μ)2(1)
但是有时候,方差公式也会这样写:
(2) σ 2 = ∑ i = 1 n ( x i − μ ) 2 n − 1 \sigma^{2} = \sum_{i=1}^{n}\frac{(x_i-\mu)^2}{n-1} \tag 2 σ2=i=1∑nn−1(xi−μ)2(2)
其实对于(1)式,规范的写法应该是:
(3) S 2 = ∑ i = 1 n ( x i − x ˉ ) 2 n S^{2} = \sum_{i=1}^{n}\frac{(x_i-\bar{x})^2}{n} \tag 3 S2=i=1∑nn(xi−xˉ)2(3)
这样就清晰了, S 2 S^2 S2是样本的方差, X ˉ \bar{X} Xˉ是样本的平均值;而 σ 2 \sigma^2 σ2是总体的方差, μ \mu μ是总体的平均值。
举一个例子说明:
如果我想知道大学里一个班级学生平均体重,那我可以统计这个班级所有学生的体重信息,求出来这个班级学生体重的平均值 X ˉ \bar{X} Xˉ,通过公式(3),我就能求出来这个班级学生体重的方差 S 2 S^2 S2,此时分母 N N N就是该班级学生人数。
但是现在我想知道全国大学生平均体重,我应该统计全国每一个大学生的体重,计算总体平均值 μ \mu μ,但是我不可能这么做。我会抽样统计,比如说我从一个学校抽出来80人,计算平均体重,也称样本平均值记作 X 1 ˉ \bar{X_1} X1ˉ,我再换一个学校抽出来80人,计算平均体重记作 X 2 ˉ \bar{X_2} X2ˉ,继续下去,我抽取了很多次,得到 X 3 ˉ \bar{X_3} X3ˉ, X 4 ˉ \bar{X_4} X