标准差和方差一般是用来描述一维数据的,但现实生活中我们常常会遇到含有多维数据的数据集,最简单的是大家上学时免不了要统计多个学科的考试成绩。面对这样的数据集,我们当然可以按照每一维独立的计算其方差,但是通常我们还想了解更多,比如,一个男孩子的猥琐程度跟他受女孩子的欢迎程度是否存在一些联系。协方差就是这样一种用来度量两个随机变量关系的统计量,我们可以仿照方差的定义:
来度量各个维度偏离其均值的程度,协方差可以这样来定义:
协方差的结果有什么意义呢?如果结果为正值,则说明两者是正相关的(从协方差可以引出“相关系数”的定义),也就是说一个人越猥琐越受女孩欢迎。如果结果为负值, 就说明两者是负相关,越猥琐女孩子越讨厌。如果为0,则两者之间没有关系,猥琐不猥琐和女孩子喜不喜欢之间没有关联,就是统计上说的“相互独立”。
从协方差的定义上我们也可以看出一些显而易见的性质,如:
所以对协方差矩阵而言,对角线元素是方差 矩阵是对称矩阵
那么为什么是要除以n-1呢?因为是要用无偏估计
作者:魏天闻
链接:http://www.zhihu.com/question/20099757/answer/26586088
来源:知乎
要回答这个问题,偷懒的办法是让困惑的题主去看下面这个等式的数学证明:
但是这个答案显然不够直观(教材里面统计学家像变魔法似的不知怎么就得到了上面这个等式)。
下面我将提供一个略微更友善一点的解释。
==================================================================
===================== 答案的分割线 ===================================
==================================================================
首先,我们假定随机变量
由此可得
因此
这个结果符合直觉,并且在数学上也是显而易见的。
现在,我们考虑随机变量
如果直接使用
这是因为:
换言之,除非正好
而不等式右边的那位才是的对方差的“正确”估计!
这个不等式说明了,为什么直接使用
那么,在不知道随机变量真实数学期望的前提下,如何“正确”的估计方差呢?答案是把上式中的分母
至于为什么分母是
2623

被折叠的 条评论
为什么被折叠?



