学习过程中涉及很多统计学公式,然而过去快10年,忘得一干二净,借此文复习一下叭~
样本离散程度描述
1、方差
方差描述随机变量对于数学期望的偏离程度
2、标准差
同方差,在方差基础上开平方
相关性描述
1、协方差
其中, μx和 μy 分别为 X 和 Y 的均值。
样本协方差为(真正在统计样本中使用的):
其中,除以n-1而非n的原因是, 这么做可以保证样本协方差是总体协方差的一个无偏估计。
注:协方差是有量纲的,即:未进行归一化。不适用于相关性描述
2、相关系数
针对协方差的缺点,采用变量自身波动对协方差标准化。
其中 �� 和 �� 分别为 X 和 Y 的总体标准差。通过使用 X 和 Y 的标准差对它们的协方差归一化, � 的取值范围在 -1 到 +1 之间,即 [-1, +1]: