统计学知识梳理
一、统计学基础知识
- 样本和总体:
以研究2019年北京师范大学附属第一中学初三年级学生的平均身高为例,那么北师大附一中初三年级全体学生为总体N,而样本n必然属于北师大附一中初三年级全体学生,于是有样本小于等于总体,即。
对于这样的情况,我们一般采取抽样调查,比如抽取北师大附一初三一班为样本,统计其每一位同学的身高X,计算平均身高
- 总体方差:
还是以上述为例,总体方差计算公式为:
其中X为beis北师大附一中学初三年级每一个学生的身高,为平均身高,N为北师大附一初三学生数量。
- 样本方差:
样本方差的计算公式:
其中为样本方差,n为样本数量即北师大附一初三一班学生数量,
为初三一班每一位学生的的身高,
为初三一班学生平均身高。
有的同学会问,为什么这里分母是n-1而非n,这个问题问得非常好,简单的回答是,我们希望计算的样本方差是总体方差的一个无偏估计。
具体可参考:https://blog.youkuaiyun.com/hearthougan/article/details/77859173
- 标准差:
标准差用表示,即,标准差是方差的算术平方根。
- 方差公式:
方差公式上面介绍总体方差和样本方差时已介绍过。
- 随机变量:
简单的说,随机变量时随机事件的数字表现。包括离散型随机变量比如有二项随机变量;连续型随机变量比如有正太随机变量。
- 概率密度函数:
对于随机变量X的分布函数F(x),如果存在非负可积函数f(x),使得对任意实数x,有:
则x为连续型随机变量,f(x)为X的概率密度函数。
二、二项分布
二项分布就是重复n次独立的伯努利试验。在每次试验中只有两种可能的结果,而且两种结果发生与否互相对立,并且相互独立,与其它各次试验结果无关,事件发生与否的概率在每一次独立试验中都保持不变,则这一系列试验总称为n重伯努利实验即二项分布。
- 二项分布的期望
二项分布的期望为:
其中n为总事件的次数,p为每次试验A发生概率,所计算的期望为shij事件A发生的期望。
- 二项分布的方差
n为事件总次数,p为每次试验事件A发生的概率,所计算的是事件A发生的方差。
三、泊松分布
泊松分布是统计学上常见的离散概率分布。其概率函数如下:
其中事件X发生的期望及方差均为,同时
也是单位时间内事件X平均发生的次数。
- 期望为
- 方差为
四、正态分布
正太分布又称高斯分布,拿一维正态分布为例:
若随机变量X服从一个位置参数为,尺度参数为
的概率分布,且其密度函数为:
则这个变量为随机正态变量,服从正态分布,记作,读取X服从
- 期望
- 方差为
- 概率密度函数
五、大数定律
- 定义
大数定律(law of large numbers),是一种描述当试验次数很大时所呈现的概率性质的定律。但是注意到,大数定律并不是经验规律,而是在一些附加条件上经严格证明了的定理,它是一种自然规律因而通常不叫定理而是大数“定律”。而我们说的大数定理通常是经数学家证明并以数学家名字命名的大数定理,如伯努利大数定理。
通俗地说,这个定理就是,在试验不变的条件下,重复试验多次,随机事件的频率近似于它的概率。
重要的大数定律包括切比雪夫定律、伯努利定律和辛钦大数定律。
六、疑问
在学习泊松分布时,对于特征函数还不太明白。什么是特征函数?