统计量与充分统计量的定义

本文介绍了统计量的定义,强调其在样本函数中不含未知参数的特性,并通过例子展示了常见统计量,如样本均值和样本方差。同时,阐述了充分统计量的定义,它是统计推断中的重要概念,指出充分统计量在确定样本条件分布与参数无关性上的作用。

统计量的定义:

x1,x2,⋯ ,xnx_1,x_2,\cdots,x_nx1,x2,,xn 为取自某总体的样本,若样本函数 T=T(x1,x2,⋯ ,xn)T=T(x_1,x_2,\cdots,x_n)T=T(x1,x2,,xn) 中不含有任何未知参数,则称 TTT统计量。统计量的分布称为抽样分布

例:

∑i=1nxi,∑i=1nxi2\sum_{i=1}^nx_i,\sum_{i=1}^nx_i^2i=1nxi,i=1nxi2 都属于统计量

而当 μ,σ2\mu,\sigma^2μ,σ2 未知时

x1−μ,x1/σx_1-\mu,x_1/\sigmax1μ,x1/σ 都不是统计量

充分统计量的定义:

x1,x2,⋯ ,xnx_1,x_2,\cdots,x_nx1,x2,,xn 是来自某个总体的样本,总体分布函数为 F(x;θ)F(x;\theta)F(x;θ)。统计量 T=T(x1,x2,⋯ ,xn)T=T(x_1,x_2,\cdots,x_n)T=T(x1,x2,,xn) 称为 θ\thetaθ充分统计量,如果在给定 TTT 的取值后,x1,x2,⋯ ,xnx_1,x_2,\cdots,x_nx1,x2,,xn 的条件分布与 θ\thetaθ 无关

### 正态分布的充分统计量 #### 定义 在统计学中,充分统计量是指能够完全概括数据集中有关未知参数的信息的一个或多个统计量。对于正态分布 \( N(\mu, \sigma^2) \),其概率密度函数为: \[ f(x; \mu, \sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{(x-\mu)^2}{2\sigma^2}} \] 其中,\( \mu \) 是均值,\( \sigma^2 \) 是方差。假设我们有一组样本 \( X_1, X_2, ..., X_n \) 来自该正态分布,则联合概率密度函数可以写成依赖于某些特定统计量的形式。 根据因子分解定理 (Factorization Theorem)[^4],如果联合概率密度函数能被表示为两部分乘积形式——一部分仅依赖于某个统计量 \( T(X) \) 参数 \( \theta \),另一部分只观测值本身相关而无关参数 \( \theta \),那么 \( T(X) \) 就是一个充分统计量。 对于正态分布而言,当已知总体方差 \( \sigma^2 \) 或者两者都未知的情况下,分别有不同的充分统计量表达方式。 #### 当总体方差 σ² 已知时 此时,只有均值 μ 需要估计。通过观察单个随机变量的概率密度函数可以看出,所有样本平均数 \( \bar{x}=\frac{\sum_{i=1}^{n} x_i } { n }\) 能够提供关于 μ 的全部信息。因此,在这种情况下,样本均值 \( \bar{X} \) 即为充分统计量[^5]。 #### 当总体均值 μ 方差 σ² 均未知时 在这种情形下,我们需要同时考虑两个参数 μ σ² 。经过分析发现,样本均值 \( \bar{X} \) 及未修正样本方差 \( S'^2 = \frac{\sum_{i=1}^{n}(X_i - \bar{X})^2}{n} \) 组合起来构成了一个二维充分统计量向量 \( (\bar{X}, S'^2) \)[^6]。 #### 性质解释 - **最小性**: 如果存在另一个充分统计量 Y ,使得当前讨论的充分统计量可以通过某种函数关系映射到它上面去,则后者被称为前者的小型化版本或者极小充分统计量(minimal sufficient statistic)。上述提到的各种情况下的充分统计量实际上都是各自场景中的极小充分统计量。 - **完备性(completeness)**: 若某充分统计量满足一定条件使其成为完备统计量,则基于此构建无偏估计具有唯一最优解特性(Fisher–Neyman factorization theorem combined with Lehmann-Scheffé theorem)[^7]。 ```python import numpy as np def sample_mean_variance(data): """ 计算给定数据集的样本均值未修正样本方差 参数: data : list or array-like object containing numeric values 返回: tuple of two elements representing the sample mean and uncorrected variance respectively. """ n = len(data) if n == 0: raise ValueError("Data cannot be empty.") sum_x = sum(data) squared_sum_x = sum([xi**2 for xi in data]) sample_mean = sum_x / n unc_var = (squared_sum_x/n)-(sample_mean**2) return sample_mean, unc_var # Example usage data_points = [3., 4., 5., 6., 7.] mean_val, var_val = sample_mean_variance(data_points) print(f"Sample Mean: {mean_val}") print(f"Uncorrected Sample Variance: {var_val}") ```
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值