正态分布
某一地区的人群生长环境相似,我们随机选20个男性,量出他们的身高,近似地服从正态分布。
正态分布,即高斯分布,是自然界最常见的数据分布了。
用均值、标准差来确定一个正态分布概率密度图。比如N(-2,0.5),就是均值为-2,标准差为0.5的正态分布。而N(0,1)称为标准正态分布。
这里给出R应用
//假设当在居民的身高正态分布均值为170cm,标准差为10,身高低于160的概率为
pnorm(160,170,10)//0.1586553
//身高在170~180之间的概率为
pnorm(180,170,10)-pnorm(170,170,10)//0.8413447-0.5=0.3413447
中心极限定理
通常,由于总体过大,我们以样本为研究对象,并用样本的统计量估算总体的统计量。
比如,我们根据样本均值,估算出总体均值。
我们从总体中100取出多个样本,每个样本10条数据,取每个样本的均值,得到100个样本均值。当样本均值够多时,就会发现这些样本均值服务正态分布。取这个样本均值的正态分布的均值,理论上最接近总体均值了。这就是大数定理,即,中心极限定理。
抽样分布
上面提到的样本均值,算是一种样本统计量。
就是说,当我们在一个数据集中抽出多个样本时,这些样本的样本统计量会服从固定的抽样分布。
这样,我们只要看抽样分布与假定的总体分布差距大小,就知道总体分布的情况了。
常见的三大抽样分布:卡方分布、t分布、F分布,都是基于正态