方差 :
方差是用来衡量随机变量离其均值的距离的统计指标。它描述了数据集的分散程度,方差越大,表示数据点相对于均值的离散程度越高。
对于一个包含个观测值的数据集
,其方差
的计算公式如下:
其中:
- 是第
个观测值。
- 是样本均值,计算方法为
。
- 是为了消除正负差异,如果直接将数据点与均值相减,得到的结果可能会有正负之分,这样会导致正负差异的相互抵消。平方操作将所有差异都转化为正数,消除了正负号对方差的影响。
方差有助于理解数据的分布以及数据点相对于均值的分散情况。
标准差:
标准差是方差的平方根,用来衡量一组数据的离散程度或分散程度。标准差具有与原始数据相同的单位,因此更容易解释。标准差的计算公式如下:
其中:
表示变量
的标准差。
标准差越大,表示数据点相对于均值的离散程度越高。与方差不同,标准差的值具有与原始数据相同的单位,这使得标准差更容易与数据的实际范围进行比较和解释。
标准差常常用于测量一组数据的稳定性和预测性。在统计学和数据分析中,标准差是一个常见的工具,用于描述数据的变异程度,以便更好地理解和分析数据的特征。
在实际应用中,方差和标准差经常被用来描述数据的变异性。
协方差:
协方差是用于衡量两个随机变量之间关系的统计量。具体来说,协方差表示两个变量的变化趋势是如何一致的。协方差的计算公式如下:
其中:
- 和
是两个随机变量
- 和
是对应于观测值
的样本值
-和
是分别是
和
的样本均值
- 是样本数量
在协方差的计算中,分母为 ,而不是
,是因为这涉及到样本统计学中的 Bessel 修正(Bessel's correction)。
协方差是通过样本数据估计总体协方差。当我们从样本中计算协方差时,我们通常使用样本均值来估计总体均值。这个过程中,我们失去了一个自由度,因为样本均值本身是通过样本数据的计算得到的。当我们使用样本均值来估计总体均值时,我们引入了一个额外的源自样本的变异性。
如果我们在协方差的计算中使用 而不是
作为分母,那么我们会低估总体协方差。通过使用
作为分母,我们对样本的不确定性引入了修正,从而更好地估计了总体协方差。这个修正可以使我们更准确地估计总体协方差,并且在样本较小时,特别是在
相对较小的情况下,修正更为显著。
协方差的值可以为正、负或零,分别表示两个变量的变化趋势是正向关系、负向关系或没有线性关系。当协方差为正时,表示两个变量倾向于同时增加或减小;当协方差为负时,表示一个变量增加时,另一个变量倾向于减小;当协方差接近于零时,表示两个变量之间没有明显的线性关系。
然而,协方差的具体数值大小没有标准化,因此很难直观地比较不同数据集之间的协方差。协方差与相关系数密切相关,相关系数是协方差的标准化版本,范围在 -1 到 1 之间,可以更好地表示两个变量之间的线性关系的强度和方向。协方差的缺点之一是其单位依赖性,而相关系数解决了这个问题。
相关系数:
相关系数是用来衡量两个变量之间线性关系的统计指标。它的值介于 -1 和 1 之间,可以帮助我们了解两个变量之间的关联程度以及关联的方向。
相关系数(通常用符号或
表示)的计算公式如下:
其中:
- 是变量
和
的协方差。
- 和
分别是变量
和
的标准差。
相关系数的性质包括:
1. 当 时,表示两个变量呈完全正向线性关系。
2. 当时,表示两个变量呈完全负向线性关系。
3. 当 时,表示两个变量之间没有线性关系。
相关系数的绝对值越接近1,表示两个变量之间的线性关系越强。如果相关系数为正,说明两个变量正向变化;如果为负,说明它们反向变化。
在计算相关系数时,与协方差不同,相关系数是无量纲的,因此不受变量单位的影响。这使得相关系数成为衡量两个变量关系强度和方向的常用工具。