最近一直在研究均值估计之类的问题,下午正好有机会和大家分享一下.
本文摘自
Streiner DL.Maintaining standards: differences between the standard deviation and standarderror, and when to use each. Can J Psychiatry 1996; 41: 498–502.
标准差(Standard Deviation)
标准差,缩写为S.D., SD, 或者 s (就是为了把人给弄晕?),是描述数据点在均值(mean)四周聚集水平的指标。
如果把单个数据点称为“Xi,” 因此 “X1” 是第一个值,“X2” 是第二个值,以此类推。均值称为“M”。初看上去Σ(Xi-M)就可以作为描述数据点散布情况的指标,也就是把每个Xi与M的偏差求和。换句话讲,是(单个数据点—数据点的均匀)的总和。
看上去挺有逻辑性的,但是它有两个缺点。
第一个困难是:上述定义的结果永久是0。根据定义,高出均值的和永久即是低于均值的和,因此它们相互抵消。可以取差值的绝对值来处理(也就是说,忽略负值的符号),但是由于各种神秘兮兮的原因,统计学家不喜欢绝对值。另外一个剔除负号的方法是取平方,因为任何数的平方肯定是正的。所以,我们就有Σ(Xi-M)2。
另外一个问题是当我们增加数据点后此等式的结果会随之增大。比如我们手头有25个值的样本,根据前面公式计算出SD是10。如果再加25个一模一样的样本,直觉上50个大样本的数据点分布情况应当不变。但是我们的公式会产生更大的SD值。好在我们可以通过除以数据点数量N来填补这个漏洞。所以等式就酿成Σ(Xi-M)2/N.
根据墨菲定律,我们处理了两个问题,就会随之产生两个新问题。