五、统计描述
(一)集中程度的描述
1.平均数与数学期望
平均数是表示数据分布集中倾向的一个数,它可以代表这个抽样的一般性质.例如甲种群的平均体重65kg,乙种群的平均体重50kg,我们用两个种群的平均体重代表它们的种群特征,也可以说,甲种群的体重高于乙种群.虽然在乙种群中的极少个体的体重甚至可能高于甲种群的最高体重.
(1)平均数理论中最常用的是算术平均数.我们平常所说的“平均”或“平均数”,指的就是算术平均数.
算术平均数表示总体平均值的无偏估计.总体的理论平均值也叫做数学期望.
除去算术平均数之外,还有其它种类的平均数.
(2)不同的观测值在观测样本中占的比率不同,或者对于不同的指标在我们的统计计算中有不同重要性的时候,我们要采用加权平均数的方法:
(pi代表观测值xi在全部观测值中所占的比率或重要程度,通常叫它作“权(指砝码或秤砣)”或“权重”,故名加权平均)
(3)在计算平均增长率问题时,例如种群平均增长率等问题,需采用几何平均数的概念.
例:某动物种群在三年时间里,由81950只(a0),经10545只(a1),11820只(a2),到15923只(a3),求该种群的年平均增长率.
解:与第一年初(a0)相比,年末的比率为
与第一年初(a1)相比,第二年末的比率为
与第二年初(a2)相比,第三年末的比率为
应用几何平均的定义,得:
实际应用时,应用对数计算比较方便:
于是,平均增长率为
G-1=1.248-1=24.8%
(4)在处理与时间速度有关的数据(例如反应时间、做题速度等等)时,要采用调和平均数来进行处理.
例如:为测定某动物对于某种食物的记忆与反应,让它们从杂物箱子里挑选该食品.动物甲在一分钟之内挑出32个,乙挑出30个,丙挑出36个.问它们的平均速度是多少?
解:如果通常按算术平均数计算,(32+30+36)÷3=32.67(个/分钟)
实际上,应采用每挑出一块食物的速度来计算.于是有:
这才是正确的平均速度值.
请想一想,为什么?
2.众数
在一组观测值中,出现频率最高的数,叫众数.由于它出现的频率最高,因此它有较高的权重,因此也就常常影响到平均数.平均数常常偏向众数.
3.中位数
把一组数据按大小顺序排列,位于中间位置的数,通常叫做中位数.当数据个数为奇数时,中位数恰恰符合定义的规定.但数据个数为偶数时,中位数是指中间两项的算术平均数.
以上介绍了3种描述数据集中程度的数.它们各自有各自的侧重点,在应用时要仔细区分,看哪一个最能描述数据组的性质.
阅读下面的材料,你将会明白三种描述数据集中程度的数的区别:
比尔找到一家小公司的老板,希望获得一份工作.
老板告诉他:我们这里的报酬很不错.平均周工资300美元.你在学徒期每周75美元.不过很快会增加工资.
比尔接受了这个工作.
几天之后,比尔要求见老板.
比尔说:你欺骗我.我已经找其它工人了解过了,没有一个工人的工资超过每周100美元,平均工资怎么会是每周300元呢?
老板说:不要激动,比尔.我将用每周的工资表证明给你看.
说完,老板出示了上周的工资表:
看完了工资表,比尔说:是的,平均工资是300元,可是你还是骗了我.
老板说:小伙子,现在需要你将概念搞清楚.我告诉你的平均工资300元,是公司成员工资的算术平均数.如果你要问我中等水平的工资,我将告诉你200元,那是工资表的中位数.你所说的100元的工资,是工资表的众数,是大多数人所挣的工资.
比尔:我懂了.但……我还是要辞职.
问题:在体育(体操、滑冰、跳水等项目)比赛或文艺(唱歌、跳舞等项目)比赛的现场评分时,主持人常常说:“去掉一个最高分,去掉一个最低分,总分(或平均分)是…….”现在你能告诉我这样做的原因了吗?
(二)分散程度的描述
1.方差(分散度)
在说明谈到误差时,讲到一组数据,不可能是整齐划一的,它必然会存在一种对集中量的偏离或分散.描述这种数据分散或偏离程度的量,叫方差.我们常常需要知道误差的大小,这就是数据分散度的计算方法和概念问题.
首先,这种分散程度,是同什么相比而言的呢?
通常都是同集中度相比较,即同平均数相比较.我们可以用某个数据同平均值之差的大小来表示它与集中度的差异或误差.这应当是不错的,我们叫它做“离差”.
(1)离差
如果我们将误差直接相加,其结果必然等于0或接近于0.用数学式来表示,就是:
于是,我们可以将误差平方以后再相加,就不再会相互抵消了.计算的结果叫平方和.
(2)平方和
平方和的大小可以反映数据分散程度.但是,它受数据量多少的影响.有的数据的分散程度并不高,但是平方和却很大.
误差平方和的平均值,是稳定的。我们把它叫做叫方差。实际上,方差表示每一个数据所提供的相对于集中度或期望值的平均分散程度。这样,方差表示数据的分散度。方差越大,数据的分散程度越高。
(3)方差
(4)均方差
有时也用均方差的概念:
(5)样本方差
有一点是必须注意的:通常我们用方差的概念,是特指总体而言的分散程度的描述。对于抽样的样本而言,则用样本方差的概念。
(6)自由度
情况下,很自然地用样本方差来代替方差。在样本数小的时候就会发生问题。我们把n-1叫做样本的自由度。通常用d·f代表自由度。
2.方差的应用之一——标准化
方差是表示数据分散程度的一个量,它具体能够—什么应用价值呢?我们说方差有很大的应用价值,例如应用方差分析,可以研究生物某一数量性状的遗传力(父母将该性状遗传给子女的能力大小),等等。我们仅仅给大家介绍它的一个简单应用——利用方差将数据标准化。
前面我们谈到,在生物学测量上,不仅相对零点不易获得,相等的单位也是不容易获得的。这样给生物测量造成很大的困难,但是大多数搞生物测量的人喜欢把测量数据表示成为等距数据,因此人们发明了一种把不太严格的等距数据转化为相对比较严格的等距数据形式。这个方法就是折合“标准数据(标准分)”法。
原始数据如何换算成标准数据呢?
它的换算公式是:
将原始数据折算成标准分的依据是:从统计的眼光来看,数据围绕着期望值呈正态分布。由于测量标准或其它的原因,采到的数据往往不是呈标准正态分布,因此它就缺乏了相同的原点和等距数据的等距性。为了使这些数据具有等距性,我们将数据减去平均值后再除以样本方差,使得离差归一化,于是,数据的分布便成了标准正态分布,于是,数据便成了等距数据体系。
有一件事情是应该注意的:
如果我们将两组或多组数据折算成标准数据,把它们变成标准正态分布,以便于它们之间的运算。它们各组数据的方差不能相差太远,相差太大的话将使等距性失去意义。
附带谈一句我们在考试时常用的“标准分”,就是这样换算来的。它使得我们的不同科目的“自然分”具有了可比性与可加性。
(三)相对性的描述
在我们采到的数据中,常常用到百分比或百分率、频数等词汇。这些也是我们常见的统计量,它们反映了某一方面的数据在全部抽样中所占的比率,它只是一些相对的数字,但是它却能反应该组数据的一些特征,并借此对它们在总体中的相对比率进行推断。
所以,了解事物的某些特征,经常用到相对性描述。常用的有:
1.率
实际发生某现象的事物与可能发生某现象的事物之比,用以说明该现象发生的频率或强度。常用的有:百分率(%)、千分率(‰)等。
例:某校共有学生1500人,其中有近视眼966名,该校的近视眼的发病率为64.4%。
2.构成比
部分在总体中所占比率,通常用百分数来表示。
3.相对比
两个相关的同类指标的比。通常用倍数或百分数来表示:
在相对比中,由于我们选定的参照指标不同,又分为定基比和环比两种。
(1)定基比
在一个以连续的时间序列为标志的数据中,我们选定某一个特定时间的值为基数,其它时间的值都与这一指定的值相比,称为定基比。例如我们在上面几何平均的例子中提到的:
时间 |
种群数 |
定基比 |
|
某年开始的种群数 |
8195 |
100.0% |
选做固定标准 |
当年年底的种群数 |
10545 |
116.6% |
以100%为标准 |
第二年底的种群数 |
11820 |
144.2% |
以100%为标准 |
第三年底的种群数 |
15923 |
194.3% |
以100%为标准 |
(2)环比
在一个连续的以时间序列为标志的数据中,比的基数不是固定不变的,而是后一个数据与前一个数据相比,或者说以前一个数据为基数的比,我们叫它做环比。再如上例:
时间 |
种群数 |
环比 |
|
某年开始的种群数 |
8195 |
|
|
当年年底的种群数 |
10545 |
128.7% |
以8195为标准 |
第二年底的种群数 |
11820 |
112.1% |
以10545为标准 |
第三年底的种群数 |
15923 |
134.7% |
以11820为标准 |
(四)相关性的描述
1.协方差
当我们考察两个(随机)变量时,常常会遇到它们二者是否相互独立的问题。当然,如果二者相互独立则它们一定没有联系,否则就是不独立或者有联系了。如何判断两个(随机)变量是否独立呢?我们常常用“协方差”这个概念来刻划这两个变量之间的相互联系问题。
协方差的计算方法是:
当协方差为零时,两个(随机)变量x,y相互独立,或者说不相关;否则不独立,或有关联。协方差的值域是[-∝,∝],当然它可以很大,但不可能为∝。绝对值越大,二者的关联性也就越大。但是,这样使用起来很不方便,于是人们改用相关系数来专门描述两个变量的相关性。
2.相关系数
比较确切地说,相关系数是描述两个变量之间的线性关系密切程度的一个数量指标。相关系数是这样计算的:
相关系数的值域是[-1,+1]。
如果一个变量的数值随另一个变量的数值增大而不成比例地增大,或者随另一个比例的数值减小而不成比例地减小,这时,它们的相关系数的数值在[0,+1]之间。我们称这两个变量正相关。例如,身高和体重一定呈正相关的关系,但不一定是正比的关系。数学与物理这两门功课的正相关性就高,数学与历史这两门课的正相关性就小。
如果一个变量的数值随另一个变量的数值增大而成比例地减小,或者随另一个比例的数值减小而成比例地增大,这时,它们的相关系数的数值在[-1,0]之间。我们称这两个变量负相关。例如,大约30岁以后,随着年龄的增长,人的身高却会慢慢减小,但这种减小与年龄之间的关系绝对不是反比关系,我们只能叫它作负相关。
如果两个变量的相关系数等于零,则两个变量不相关。
只有相关系数等于1时,两个变量的关系为完全的正相关,或成正比关系。
同上面一样,只有相关系数等于-1时,则两个变量完全的负相关,或成反比关系。
要注意的是,在使用相关系数时,所有的数值x和y,一定要成对地出现。而且,每个数对相互独立。这样我们可以把这些数对看成平面上的点,可以直观地了解相关系数与两个变量实际上的关系:
统计学在生物学研究中还能做很多工作,最重要的统计推断我们尚未涉及。例如:点估计、区间估计、回归分析、假设检验、聚类分析、判别分析、因素分析和主成分分析等等。由于篇幅的关系就不再多谈了,希望大家多用时间下一些功夫,熟练地掌握统计学知识和技能,为学习生物学和其它学科奠定一个更好的基础。