转自:https://www.cnblogs.com/cyberniklee/p/7935707.html
之前我们知道,方差是一组数据的离散程度,它的公式为:
那么如果我们有几组数据,需要知道这几组数据的协同性呢?
举个例子,还是在小红,几次考试成绩如下:
入学考试:数学:80,语文:80
期中考试:数学:90,语文:70
期末考试:数学:70,语文:90
小蓝,几次考试成绩如下:
入学考试:数学:60,语文:60
期中考试:数学:70,语文:70
期末考试:数学:80,语文:80
好,我们把数据放着,先说一下概念。所谓的协方差,就是用来统计两组数据之间的协同程度,协方差矩阵是用来遍历不同组数据的方差。
协方差用公式表示为:
方差是协方差的特殊表现形式,即X=Y的时候。
OK,我们现在再来看上面的数据,根据这个公式,计算小红数学和总分的协方差为:
计算小蓝数学和总分的协方差为:
从这些数据上可以看出,小红的协方差为0,表明数学和总分没有什么关系,因为他的数学考得好,语文就考的不好。但小蓝的协方差是正的,表示他的数学进步,语文也跟着进步,总分自然提高了,是个全面发展的好青年。
那么我们想全面的表现语文、数学、总分之间的相关性,该如何表示呢?嗯,有个东西叫协方差矩阵,它可以表示多组数据之间两两之间的协方差。
比如按上面小红的数学成绩和总分的关系,形成数据集