参数估计
统计推断的基本问题可以分为两大类,一类是参数估计问题,另一类是假设检验问题。下面讲的是总体参数的点估计和区间估计。
1、点估计
最大似然估计法是一种常用的构造估计量的方法。
2、区间估计
置信水平
从农场收获的20万个苹果中抽取36个作为样本,样本中苹果重量的均值是112克,标准差为40克,问20万个苹果的重量均值处在100到124克之间的概率是多少。
这20万个苹果总体,其重量具有某种分布,未知的总体均值和总体标准差,而样本均值抽样分布非常接近正态分布。我们知道μx¯=μ,σx¯=σn√=σ6,n=36。所以得到原分布的均值μ=112。
题目问的是,20万个苹果的平均重量μ在100到124之间的概率,也就是某一样本均值落在抽样分布均值112左右12的范围内的概率。
如果能求出12对应多少个标准差,就可以利用z表格求出概率。但是,σx¯和σ都未知,所以我们只能用最好的估计值来代替总体标准差σ,即样本标准差是40,σ≈s=40。进而得抽样分布的标准差σx¯=σ6≈406=6.67。
z分数=126.67=1.8,求样本均值落在1.8个标准差范围内的概率。根据z表格得到最后结果为0.9282。也就是说我们92.82%确信实际均值落在100到124之间。
伯努利分布的均值和方差
伯努利分布,又叫0—1分布,是二项分布的特殊情况。
假设要外出调查总体中的每个成员对总统的满意度,只能选择满意或者不满意,得到40%不满意,60%满意。
均值可以看作每个值的概率加权和。
μ=0∗0.4+1∗0.6=0.6
方差可以看作每个值离期望值的距离的平方的概率加权和。
σ2=(0−0.6)2∗0.4+(1−0.6)2∗0.6=0.24
σ=0.49
下面给出伯努利分布的均值和方差得一般公式。假设成功的概率是p,失败的概率是1-p。
均值
μ=0∗(1−p)+1∗p=p。
方差
σ2=(0−μ)2∗(1−p)+(1−μ)2∗p
=(0−p)2∗(1−p)+(1−p)2∗p
=p2−p3+p(1−2p+p2)
=p(1−p)
置信区间
假设我住的国家有1亿人,即将总统选举,分别有候选人A和B,要么投给A,要么投给B,得到投给B的百分比是p,投给A的百分比是1-p。定义随机变量投给A记为0,投给B记为1。这个分布的均值μ等于p。
不可能一个个问别人投票给谁,于是μ和p这些参数无法准确获得。不过可以进行一项随机调查,从总体中进行抽样,然后根据样本情况估计p值,还要考虑这个估计有多好。
随机调查100个人的样本,假设结果如下,57个人选A,43个人选B。
样本均值X¯=(0∗54+1∗43)100=0.43
样本方差S2=57(0−0.43)2+47(1−0.43)299=0.2475
样本标准差S=0.5
从原分布中取100个可能值,都是0或1作为一次取样,多次取样后获得样本均值的抽样分布如下图。
这个分布的均值等于原总体均值,所以μx¯=μ=p
再看分布的标准差σx¯=σ100√=σ10,但现在不知道总体标准差σ是多少,因为调查1亿人基本不可能,只能使用样本标准差S来估计σ,所以σx¯≈0.5/10=0.05。
然后我想得到样本均值43%周围的一个区间,有95%确信真正均值μ=p落在此区间内,也就是总体中投给B的人的占比p落在此区间内。
通过经验法则知道,p在样本均值2个标准差(0.05*2)范围内,即0.43±0.1范围内,有95%的概率。也就是说,我们有95%的信心,置信水平有95%,p落在33%到55%之间。
调查中常说,调查显示43%的人投给候选人B,57%的人投给候选人A,并给出误差范围10%(描述置信区间的另一种方法)。强调的是,不能说正好95%的几率(概率区间)确定结果在10%范围内,因为抽样分布的标准差σ是估计的,每次取不同样本时S都会变化。所以应该说大概95%的几率(置信区间)真实值落在33%到55%之间。
如果要更准确需要抽取更大的样本,n增大,σx¯会减小,2个标准差范围内的区间会减小,误差范围就会减小。
小样本容量置信区间
7个患者在服用新药后测量血压,血压上升值分别为下面7个值,1.5,2.9,0.9,3.9,3.2,2.1,1.9。为总体中所有病人的血压上升值的期望建立一个95%的置信区间。
计算样本均值X¯=2.34,样本标准差S=1.04。在不知道总体情况的时候,我们可以使用样本标准差S来估计σ。但是这里只有7个样本,n=7,此时这个估计值就不算好了,因为n太小了,n小于30被认为是糟糕的估计。
小样本的抽样分布不能像原来那样认为是正态分布,我们假设为t分布,可以认为t分布是专门为小样本容量时置信区间的更好估计所设计的,它和正态分布很像,就是更扁平。可以这么理解,当样本容量远小于30时,使用公式σx¯=σ7√≈S7√,会低估σx¯,所以图像扁平。
介绍完t分布,我们可以使用t表格来计算t分布的一个95%的置信区间,查表得2.447个标准差。计算σx¯=σ7√≈S7√=1.047√=0.39。0.39*2.447=0.96。
所以,相信有95%几率,抽样分布均值μ在样本均值2.34周围0.96的范围内。置信区间下限是1.38,置信区间上限是3.3。说“置信”是因为这些都是估计,表示并非真正的95%概率。