四种抽样方法:
1.简单随机抽样(N个里面抽取n个单位),n个随机变量满足两点,这个样本叫做简单随机样本。
(1)n个随机变量和总体X有着相同的概率分布(x方分布,正态分布等)
(2)相互独立,不干扰。
样本具有随机性,因为概率分布要一致。那么均值、方差不同的总体样本。样本的函数也不一样。
记为g(x1,x2,x3,……,xn),叫做样本统计量,样本统计量也是随机变量。
统计量的概率分布叫做抽样分布
样本均值和比例满足正态分布,两个样本的均值之差满足 正态分布。样本方差满足x方分布,两个样本方差比的抽样分布满足F分布
正态总体情形
在样本容量大于30的时候,样本均值的抽样分布可以用正态概率分布近似
假定某一总体中具有某一特征的个体的比例为𝑷,从容量为𝑵 的总体中随机抽
取𝒏 个个体进行调查,具有某一特征的样本个体数为x,记样本比例为𝒑,则
由二项分布的原理和渐近分布的理论可知,
样本比例的抽样分布(大样本条件下)近似服从正态分布
2.系统抽样
3.分层随机抽样
4.整群抽样
学习目的:有偏估计
原假设与备择假设
置信区间有关的知识点
参数估计
1.估计量:样本参数--估计总体参数的样本统计量叫做估计量
样本均值- 就是总体均值的估计量
2.估计值,得到样本数据可求出样本统计量的值。称为总体参数的估计值。如
=168.1868cm。
3.点估计: 样本统计量的函数值作为参数来估计。
4.区间估计:用样本统计量构造一个置信区间,作为对参数的估计。
比如95%的把握保证,成年男子平均身高的区间估计为[ 155.54cm,179.42cm ]
(1)无偏性(unbiasedness)
为位置参数
的估计量,若E(
)=
,即估计量的期望就等于原参数
那么就记作无偏估计量,称具有无偏性。如果
是有偏估计量
那么偏差量
偏差=()-
右边这个例子还不是很看得懂。
(2)有效性
即为,谁的方差越小那么就越有效 。
所以说这个例子是什么意思?
(3)一致性
样本容量增大,估计值越来越靠近被估计的参数
一个例题
例题已经学会()
(4)罗-克拉美不等式
如果有两个以上的无偏估计量,则称具有最小方差的估计量为最佳无偏 估计量。为检查估计量是否达到最佳无偏,可以用罗—克拉美不等式衡量。
不等式概念:
对于一个无偏估计量的方差D(
)在一般的条件,其方差永远不会小于一个正数,这个正数是的D(
)下限,它依赖于总体的概率密度函数和样本容量n 。
注:当 D()等于不等式右端时,这时称为最佳无偏估计量。
有个例题可以看一看
点估计常用方法:
1.特征数法
2.最大似然法(Maximum Likelihood Estimate)
应用的前提是:总体分布形式已经知道了
基本思想:让样本选择“总体”
例子:样本( x1, x2 ,…,x6 )来自于方差已知但均值未知的一个正态分布
区间估计
➢ 1.女孩的年龄18岁——点估计
➢ 2.女孩的年龄,八成可能性在16岁—20岁之间
女孩的年龄:被估参数
可信度:八成可能性
16岁-20岁之间:区间、范围
可信度:置信度/置信水平区间:置信区间
定义
区间估计:在一定置信度下求参数的置信区间(Confidence Interval)
几点说明
➢ 通常α较小, 1-α 较大。1-α称为置信水平, 常取0.99,0.95
如何评价一个置信区间的好坏,评价置信区间好坏的标准
1.可靠性越大越好
2.精度:越小越好
1-α大,大,即参数θ的不确定性大,精度低
小,1-α小,可信度低
一般准则:在保证置信度的条件下尽可能提高精度
置信区间是一个随机区间,一次抽样可能包括有θ,也可能没有
分位数
定义:设𝑿是随机变量,𝜶(𝟎 < 𝜶 < 𝟏)是任意给定的正数,若存在𝒙𝜶,使得𝑷{𝑿 ≥ 𝒙𝜶} = 𝜶,则称𝒙𝜶为𝑿(或它的概率分布)的𝜶上侧分位数(upper quantile)。
如何构造一个置信区间
枢轴量法