概率论与数理统计——数理统计

数理统计的基础概念

简单随机样本

定义:设总体 X 是一个具有分布函数 F(x) 的随机变量,若随机变量 X1, X2, ..., Xn 满足:

  1. 独立性:X1, X2,..., Xn 相互独立;
  2. 同分布性:每个 Xi 都与总体 X 同分布,即 F_{X_{i}} = F(x)(i = 1, 2, ..., n)

则称 X1, X2, ..., Xn 为来自总体 X 的容量为 n 的简单随机样本(样本)。

对样本的一次观测值 x1, x2, ..., xn 称为样本值。

统计量

定义:设 X1, X2, ..., Xn 是来自总体 X 的一个样本,g(X1, X2, ..., Xn) 是样本的不含未知参数的连续函数,则称 g(X1, X2, ..., Xn) 为一个统计量。

常用统计量

统计量名称公式作用
样本均值\overline{X} = \frac{1}{n}\sum_{i=1}^{n} X_{i}估计总体均值 E(X)
样本方差S^{2} = \frac{1}{n-1}\sum_{i=1}^{n}(X_{i}-\overline{X})^{2}估计总体方差 D(X) (n-1为自由度)

补充性质

  • E(\overline{X})=E(X),\: D(\overline{X}) = \frac{D(X)}{n},\: E(S^{2}) = D(X)
  • 若总体 E(X) = \mu, D(X) = \sigma^{2},则 E(\overline{X}) = \mu,D(\overline{X}) = \frac{\sigma^{2}}{n}, E(S^{2}) = \sigma^{2}

三大统计分布

1.\chi ^{2} 分布

定义:设 X1, X2, ..., Xn 相互独立,且都服从标准正态分布 N(0, 1),则称随机变量

\chi ^{2} = X_{1}^{2} + X_{2}^{2} + \cdot \cdot\cdot+X_{n}^{2}

服从自由度为 n 的 \chi ^{2} 分布,记为 \chi ^{2} \sim \chi^{2}(n)

性质:

  1. 可加性:若 X \sim \chi^{2}(n_{1}), Y \sim \chi^{2}(n_{2}),且 X 与 Y 独立,则 X + Y \sim \chi^{2}(n_{1}+n_{2})
  2. 数字特征:E(\chi^{2}) = n, D(\chi^{2}) = 2n
  3. 上α分位点:满足 P \left \{ \chi^{2} > \chi^{2}_{\alpha}(n) \right \} = \alpha 的点 \chi_{\alpha}^{2}(n) 称为上α分位点。

2.t 分布

定义:设 X \sim N(0,1), Y \sim \chi^{2}(n),且 X 与 Y 相互独立,则称随机变量

t = \frac{X}{\sqrt{Y/n}}

服从自由度为 n 的 t 分布,记为 t \sim t(n)

若 X \sim N(\mu,1),则 t = \frac{X-\mu}{\sqrt{Y/n}} 。

性质:

  1. 对称性:t 分布的概率密度函数关于 t = 0 对称,与标准正态分布形状类似;
  2. 数字特征:E(t) =0, D(t) = \frac{n}{n-2}\: (n>2)
  3. 上α分位点:满足 P\left \{ t > t_{\alpha}(n) \right \} = \alpha 的点 t_{\alpha}(n) 称为上α分位点,且 t_{1-\alpha}(n) = -t_{\alpha}(n)

3.F 分布

定义:设 X \sim \chi^{2}(n_{1}), Y \sim \chi^{2}(n_{2}),且 X 与 Y 相互独立,则称随机变量

F = \frac{X/n_{1}}{Y/n_{2}}

服从第一自由度为 n1,第二自由度为 n2 的 F 分布,记为 F \sim F(n_{1},n_{2})

性质:

  1. 倒数性质:若 F \sim F(n_{1},n_{2}),则 \frac{1}{F} \sim F(n_{2},n_{1})
  2. 数字特征:E(F) = \frac{n_{2}}{n_{2}-2}, D(F) = \frac{2n_{2}^{2}(n_{1}+n_{2}-2)}{n_{1}(n_{2}-2)^2(n_{2}-4)} \: (n_{2}>4)
  3. 上α分位点:满足 P\left \{ F > F_{\alpha}(n_{1}, n_{2}) \right \} = \alpha 的点 F_{\alpha}(n_{1},n_{2}) 称为上α分位点。

例题:

单正态总体的抽样分布

设总体 X \sim N(\mu, \sigma^{2}),X1, X2, ..., Xn 是来自 X 的样本,

样本均值 \overline{X} = \frac{1}{n}\sum_{i=1}^{n}X_{i};样本方差 S^{2} = \frac{1}{n-1}\sum_{i=1}^{n}(X_{i}-\overline{X})^{2}

统计量分布结论适用条件
样本均值分布\frac{\overline{X}-\mu}{\sigma/\sqrt{n}} \sim N(0,1)\mu,\sigma,\overline{X} 已知
样本方差分布\frac{(n-1)S^{2}}{\sigma^{2}} \sim \chi^{2}(n-1)\sigma^{2}, S^{2} 已知
均值的 t 分布\frac{\overline{X}-\mu}{S/\sqrt{n}} \sim t(n-1)\mu, \overline{X},S^{2} 已知

双正态总体的抽样分布

设总体 X \sim N(\mu_{1},\sigma_{1}^{2}),Y\sim N(\mu_{2},\sigma_{2}^{2}),X1, ..., Xn1 是来自 X 的样本,Y1, ..., Yn2 是来自 Y 的样本,且两样本相互独立。记

\overline{X} = \frac{1}{n_{1}}\sum_{i=1}^{n_{1}}X_{i}, \: \: S_{1}^{2} = \frac{1}{n_{1}-1}\sum_{i=1}^{n_{1}}(X_{i}-\overline{X})^{2}

\overline{Y} = \frac{1}{n_{2}}\sum_{i=1}^{n_{2}}Y_{i}, \: \: S_{2}^{2} = \frac{1}{n_{2}-1}\sum_{i=1}^{n_{2}}(Y_{i}-\overline{Y})^{2}

1.均值差的分布

1)\sigma_{1}^{2},\sigma_{2}^{2} 均已知

\frac{(X-Y)-(\mu_{1}-\mu_{2})}{\sqrt{\frac{\sigma_{1}^{2}}{n_{1}} + \frac{\sigma_{2}^{2}}{n_{2}}}} \sim N(0,1)

2)\sigma_{1}^{2} =\sigma_{2}^{2} = \sigma^{2} 但未知

\frac{(X-Y)-(\mu_{1}-\mu_{2})}{S_{w}\sqrt{\frac{1}{n_{1}} + \frac{1}{n_{2}}}} \sim t(n_{1}+n_{2}-2)

其中 S_{w}^{2} = \frac{(n_{1}-1)S_{1}^{2}+(n_{2}-1)S_{2}^{2}}{n_{1}+n_{2}-2}, \:S_w = \sqrt{S_{w}^{2}} 称为合并方差。

2.方差比的分布

\frac{S_{1}^{2}/\sigma_{1}^{2}}{S_{2}^{2}/\sigma_{2}^{2}} \sim F(n_{1}-1, n_{2}-1)

参数估计

估计量的无偏性与有效性

设总体 X 的未知参数为 θ,\overline{\theta} = \overline{\theta}(X_{1}, X_{2}, ..., X_{n}) 是 θ 的一个估计量。

1.无偏性

若估计量 \overline{\theta} 的数学期望等于未知参数 \theta,即 E(\overline{\theta}) = \theta 。

判别:

  1. 样本均值 \overline{X} 是总体均值 \mu = E(X) 的无偏估计;
  2. 样本方差 S^{2} = \frac{1}{n-1}\sum_{i=1}^{n}(X_{i}-\overline{X})^{2} 是总体方差 \sigma^{2} = D(X) 的无偏估计。

2.有效性

设 \overline{\theta_{1}} 和 \overline{\theta_{2}} 都是 \theta 的无偏估计量,若对任意样本容量 n,有

D(\overline{\theta_{1}}) < D(\overline{\theta_{2}})

则称 \theta_{1} 比 \theta_{2} 更有效

即在无偏的前提下,方差越小的估计量,取值越集中于真实参数 θ 附近,估计精度越高

例题:

矩估计法与极大似然估计法

1.矩估计法

基本思想:用样本矩替换总体矩,用样本矩的函数替换总体矩的函数。

题目中表示用样本均值 \overline{X} 去替换总体均值 \mu

2.极大似然估计法

基本思想:

离散型和连续型步骤是一样的,只是求似然函数的方法不一样。

设离散型总体分布律为 P\left \{ X=x \right \}=p(x;\theta),连续型总体概率密度为 f(x;\theta),θ 为未知参数。

注意:\prod 表示连乘

  1. 写出似然函数:L(\theta) = L(\theta;x_{1},x_{2},...,x_{n}) = \prod _{i=1}^{n}p(x_{i};\theta)(离散型),L(\theta) = \prod _{i=1}^{n}f(x_{i};\theta)(连续型)
  2. 取对数得到对数似然函数(简化计算):ln(L(\theta)) = \sum _{i=1}^{n}ln\: p(x_{i};\theta)\sum _{i=1}^{n}ln\: f(x_{i};\theta)
  3. 求对数似然函数的最大值点(对 θ 求导并令导数为 0):\frac{d\: lnL(\theta)}{d\theta} = 0:
  4. 解方程得 \theta 的极大似然估计值 \overline{\theta},对应估计量。

离散型:

连续型:

单正态总体的置信区间

设总体X \sim N(\mu, \sigma^{2}),X1, X2, ..., Xn 是样本,

样本均值 \overline{X} = \frac{1}{n}\sum_{i=1}^{n}X_{i};样本方差 S^{2} = \frac{1}{n-1}\sum_{i=1}^{n}(X_{i}-\overline{X})^{2};置信水平 1-\alpha

1.均值的置信区间(\mu

1)\sigma^{2} 已知

推导依据:\frac{\overline{X}-\mu}{\sigma/\sqrt{n}} \sim N(0,1)

标准正态分布的对称性,P\left \{ |\frac{\overline{X}-\mu}{\sigma/\sqrt{n}}| < z_{\alpha/2} \right \} = 1-\alpha 

\mu 的置信区间:(\overline{X} - \frac{\sigma}{\sqrt{n}}z_{\alpha/2}, \overline{X} + \frac{\sigma}{\sqrt{n}}z_{\alpha/2})

2)\sigma^{2} 未知

推导依据:\frac{\overline{X}-\mu}{S/\sqrt{n}} \sim t(n-1)

t 分布的对称性,P\left \{ |\frac{\overline{X}-\mu}{S/\sqrt{n}}| < t_{\alpha/2}(n-1) \right \} = 1-\alpha

\mu 的置信区间:(\overline{X} - \frac{S}{\sqrt{n}}t_{\alpha/2}(n-1), \overline{X} + \frac{S}{\sqrt{n}}t_{\alpha/2}(n-1))

2.方差的置信区间(\sigma^{2}

1)\mu 已知/未知

推导依据:\frac{(n-1)S^{2}}{\sigma^{2}} \sim \chi^{2}(n-1)

\chi ^{2} 分布非对称,取上 α/2 分位点 \chi ^{2}_{\alpha/2}(n-1) 和上 1-α/2 分位点 \chi ^{2}_{1-\alpha/2}(n-1),满足

P\left \{ \chi^{2}_{1-\alpha/2}(n-1) < \frac{(n-1)S^{2}}{\sigma^{2}} < \chi^{2}_{\alpha/2(n-1)} \right \} = 1-\alpha

\sigma^{2} 的置信区间:(\frac{(n-1)S^{2}}{\chi^{2}_{\alpha/2}(n-1)}, \frac{(n-1)S^{2}}{\chi_{1-\alpha/2}^{2}(n-1)})

例题:

假设检验

假设检验的两类错误

假设检验中,由于样本的随机性,决策结果可能出现两类错误,且两类错误无法同时避免,降低一类错误概率会导致另一类错误概率上升(样本量固定时)。

错误类型定义
第一类错误(弃真错误)原假设 H_{0} 为真,但检验结果拒绝 H_{0}
第二类错误(取伪错误)原假设 H_{0} 为假,但检验结果接受 H_{0}

假设检验的基本步骤

1.建立假设

  • 零假设 H0:需要被检验的假设(如:\mu = \mu_{0}, \sigma^{2} = \sigma^{2}_{0});
  • 对立假设 H1:与 H0 相反的假设,分为双侧\mu \neq \mu_{0})和单侧\mu > \mu_{0},\mu < \mu_{0}

2.构造检验统计量

根据总体分布、参数是否一致,选择合适的统计量,要求:

  • 统计量是样本的函数,不含未知参数
  • H0 为真时,统计量的分布已知(如 N(0,1),t(n-1),\chi ^{2} (n-1),F(n_{1}-1,n_{2}-1) )。

3.确定拒绝域

  • 根据显著性水平 α 和 H1 的类型(双侧 / 单侧),查分布表得到临界值
  • 拒绝域:使 H0 被拒绝的统计量取值范围,双侧检验拒绝域在分布两侧,单侧检验在一侧。

4.计算检验统计量的观测值

代入样本数据,计算检验统计量的具体数值。

5.做出决策

  • 若统计量观测值落在拒绝域内,则拒绝 H0,接受 H1
  • 若统计量观测值未落在拒绝域内,则不拒绝 H0

单正态总体的假设检验

1.检验均值 \mu

检验 H_{0} :\mu = \mu_{0} 

1)\sigma^{2} 已知

构造检验统计量 \frac{\overline{X}-\mu}{\sigma/\sqrt{n}} \sim N(0,1)

2)\sigma^{2} 未知

构造检验统计量 \frac{\overline{X}-\mu}{S/\sqrt{n}} \sim t(n-1)

2.检验方差 \sigma^{2}

构造检验统计量 \frac{(n-1)S^{2}}{\sigma^{2}} \sim \chi^{2}(n-1) 

例题:

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值