参考:
1、什么是协方差,怎么计算?为什么需要协方差?
2、终于明白协方差的意义了
3、如何通俗易懂地解释「协方差」与「相关系数」的概念?
概念解释
普通高等教“十一五”国家级规划教材
概率论与数理统计 第四版
概念截取自本书中:
概念理解
基本公式:
均值即为样本的平均值,标准差为散布度
协方差
协方差是一种用来度量两个随机变量关系的统计量,我们可以仿照方差的定义:
来度量各个维度偏离其均值的程度,标准差可以这么来定义:
从定义上看,协方差仅能处理二维数据,但是对于多维的情况,就需要协方差矩阵了。
从协方差的定义上我们也可以看出一些显而易见的性质,如:
协方差矩阵
从这个理解:
可见,协方差矩阵是一个对称的矩阵,而且对角线是各个维度上的方差。
编程注意
1、协方差矩阵计算的是不同维度之间的协方差,而不是不同样本之间的。(结合下面的2理解,每个样本有很多特征,每个特征就是一个维度)
2、根据公式,计算协方差需要计算均值,那是按行计算均值还是按列呢,协方差矩阵是计算不同维度间的协方差,要时刻牢记这一点。样本矩阵的每行是一个样本,每列为一个维度,所以我们**要按列计算均值**。