1.统计学基本知识
总体与个体
数据存在总体与个体的关系,现实生活中往往用样本数据来估计总体数据的趋势,用以估计总体数据的特征的指标有众数、中位数、均值、方差、标准差等。下面将介绍这些指标。
设总体数据有N个,样本数据有n个(n<=N)
众数:一组数据中出现次数最多的那个数,就是众数,众数可不唯一。
中位数:将一组数据从大到小或者从小到大的排序,中位数等于位于数据中间的数。有两种情况,设有N个数据,当N是偶数时,中位数是中间两个数的平均值,即等于;当n是奇数时,中位数是中间的数据,即等于
。
样本均值:计算样本数据的平均值。
总体均值:计算总体数据的平均值。
样本方差:计算样本数据的方差。
总体方差:计算总体数据的方差。
样本方差和总体方差的公式不一样,这样才满足样本的无偏估计量是总体方差,便于后续进行估计总体。
2.二项分布
定义二项分布:在n次伯努利试验中正好出现k次成功的概率为b(k;n,p):
其中,q=1-p。
b(k;n,p),k=1,2,3,...n,称为二项分布。
均值:np
方差:npq
3.泊松分布
在独立试验中,以代表事件A在试验中出现的概率,它与试验总数n有关,如果
,则当
时,
形如
称为泊松分布,称为它的参数。
均值:
方差:
4.大数定律
根据百度百科,总结一下大数定律。大数定律需要注意两点,一是“大数”,即试验的次数达到无穷大,二是“定律”,一种符合自然规律的,叫做定律,而不是定理。
大数定律是一种描述当试验次数很大时所呈现的概率性质的定律。下面将列举三个重要的定律。
切比雪夫大数定律
设 ,....是一列相互独立的随机变量(或者两两不相关),他们分别存在期望
和方差
。若存在常数C使得:
则对任意小的正数 ε,满足公式:
该定律阐述了一种规律:随着样本容量n的增加,样本平均数将接近于总体平均数。从而为统计推断中依据样本平均数估计总体平均数提供了理论依据。
伯努利大数定律
设μ是n次独立试验中事件A发生的次数,且事件A在每次试验中发生的概率为P,则对任意正数ε,满足公式:
该定律是切比雪夫大数定律的特例,其含义是,当n足够大时,事件A出现的频率将几乎接近于其发生的概率,即频率的稳定性。
辛钦大数定律
辛钦大数定律是比较常用的大数定律。设 为独立同分布的随机变量序列,若
的数学期望存在,则服从大数定律,即对任意的ε>0,满足公式:
该定律说明满足独立同分布的一系列数,可以用其均值来估计总体数据的均值。
5.正态分布
正太分布,又称为高斯分布。假设一随机变量X服从一个期望为,方差为
的正太分布,则可记为
当时,称
为标准正太分布。
一维正太分布:
满足一维正太分布的概率密度函数满足