方差是为了观察样本的离散程度。举个例子:样本A是10、10、10、10、10;样本B是-10、0、10、20、30。A和B的均值都是10,但显然B的样本点离散程度更大一些。如何来用统计量描述这种离散程度呢?很直观可以想到:那就把每一个样本点与均值点的“距离”统计在一起看一看就清楚了。最先想到的距离就是直接做差(暂时仅讨论一维情况),但会有正负号相抵消的问题——试想上边样本A和B,每个样本点与均值做差并对差值求和后都是0,并无法区分分散程度。鉴于此,很直接想到一个改良版本,即对差的绝对值求和,即统计量“平均差”。但平均差仍有一些问题,最关键的是没有过于偏离的点以足够多的“关注”。举例子:给定样本C为-20、10、10、10、40。将样本C与样本B比较,二者均值相等、平均差相等,但直观感受上来讲,样本C离散更严重些(想像成分数的话就是C的发挥更加不稳定),因为有两个明显“跑到远处去”的点。所以为了给明显跑偏的点以更大的“关注”,就使用二次函数加大这个惩罚值,于是方差便诞生了。当然,为了与样本点及其均值在量纲上可比,通常会再开方得到标准差。此外,方差有一些额外的优势,比如二次函数天然可解决正负号相抵的问题、可以在高维数据下计算距离、计算方便等等。另外从统计意义上讲,可以证明使方差最小化能够找到概率最高的无偏估计。综上,方差成为了描述样本离散程度的最常用统计量。
方差越大,说明数据离散程度越大,其所包含的信息越多
方差的意义
最新推荐文章于 2025-03-25 10:06:53 发布