充分统计量(Sufficient Statistics)

本文介绍了充分统计量的概念及其在统计推断中的应用。充分统计量能够完全捕捉参数所包含的关于分布的信息,使得条件分布不再依赖于原始参数。文中通过实例解释了充分统计量的意义,并探讨了其在假设检验和参数估计中的作用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

转载:http://www.cnblogs.com/ysjxw/archive/2008/10/29/1322170.html

一个随机变量的分布,可以取决于一些参数的值。而充分统计量,则能够完全捕捉这些参数所包含的关于分布的信息。也就是说,如果知道充分统计量的值,那么这个随机变量关于它的条件分布,不再取决于原来参数的值。网上找到的定义如下:

  1. In statistics, a statistic is sufficient for the parameter θ, which indexes the distribution family of the data, precisely when the data's conditional probability distribution, given the statistic's value, no longer depends on θ. P(x|t,θ) = P(x|t)
  2. Suppose one has samples from a distribution, does not know exactly what that distribution is, but does know that it comes from a certain set of distributions that is determined partly or wholly by a certain parameter, q. A statistic is sufficient for inference about q if and only if the values of any sample from that distribution give no more information about q than does the value of the statistic on that sample. E.g. if we know that a distribution is normal with variance 1 but has an unknown mean, the sample average is a sufficient statistic for the mean.
  3. Sufficient statistics have many uses in statistical inference problems. In hypothesis testing, the Likelihood Ratio Test can often be reduced to a sufficient statistic of the data. In parameter estimation, the Minimum Variance Unbiased Estimator of a parameter θ can be characterized by sufficient statistics and the Rao-Blackwell Theorem.  Minimal sufficient statistics are, roughly speaking, sufficient statistics that cannot be compressed any more without losing information about the unknown parameter. Completeness is a technical characterization of sufficient statistics that allows one to prove minimality. These topics are covered in detail in this module. Further examples of sufficient statistics may be found in the module on the Fisher-Neyman Factorization Theorem

统计量是样本的不带任何未知量的函数,一般而言,统计量所包含的信息比样本要少,但可能这些漏掉的信息是无关紧要的。比如正态分布,均值和方差就是充分统计量,它包含的信息比样本要少,但是给定均值和方差的值,总体的条件分布不再依赖于其他参数的值。    

一个现实中的小例子[1],就是星座与性格的关系。性格肯定是一个随机变量,它的分布取决于太多的因素,比如家庭、生长的地域、受的教育、还有生理等诸多因素。但莫明其妙的是,在很多情况下,这么多因素的信息居然浓缩在“星座”这一个信息里。比如,你想判断一个人的性格,你可以问他或她是什么星座的,给定星座的情况下,你对他/她性格的“分布”会有一个估计。

很多情况下,你还可以加上血型这样一个统计量,估计会更精确点。但匪夷所思的是,有人还再加上“生肖”这样一个中国特有的“统计量”,再对各星座的性格做出统计判断。

莫名奇妙的组合,玄得近乎“巫术”的推断,居然在大多数情况下,都是吻合的!谁能告诉我,这背后的道理是什么?难道真有这么神奇的事情?抑或是上帝的安排。


 

参考文献

[1] http://sinokylin.spaces.live.com/Blog/cns!F34E44CB40CC7976!543.entry

[2] L. Scharf. (1991). Statistical Signal Processing. Addison-Wesley.



### 正态分布充分统计量 #### 定义 在统计学中,充分统计量是指能够完全概括数据集中有关未知参数的信息的一个或多个统计量。对于正态分布 \( N(\mu, \sigma^2) \),其概率密度函数为: \[ f(x; \mu, \sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{(x-\mu)^2}{2\sigma^2}} \] 其中,\( \mu \) 是均值,\( \sigma^2 \) 是方差。假设我们有一组样本 \( X_1, X_2, ..., X_n \) 来自该正态分布,则联合概率密度函数可以写成依赖于某些特定统计量的形式。 根据因子分解定理 (Factorization Theorem)[^4],如果联合概率密度函数能被表示为两部分乘积形式——一部分仅依赖于某个统计量 \( T(X) \) 和参数 \( \theta \),另一部分只与观测值本身相关而无关参数 \( \theta \),那么 \( T(X) \) 就是一个充分统计量。 对于正态分布而言,当已知总体方差 \( \sigma^2 \) 或者两者都未知的情况下,分别有不同的充分统计量表达方式。 #### 当总体方差 σ² 已知时 此时,只有均值 μ 需要估计。通过观察单个随机变量的概率密度函数可以看出,所有样本平均数 \( \bar{x}=\frac{\sum_{i=1}^{n} x_i } { n }\) 能够提供关于 μ 的全部信息。因此,在这种情况下,样本均值 \( \bar{X} \) 即为充分统计量[^5]。 #### 当总体均值 μ 和方差 σ² 均未知时 在这种情形下,我们需要同时考虑两个参数 μ 和 σ² 。经过分析发现,样本均值 \( \bar{X} \) 及未修正样本方差 \( S'^2 = \frac{\sum_{i=1}^{n}(X_i - \bar{X})^2}{n} \) 组合起来构成了一个二维充分统计量向量 \( (\bar{X}, S'^2) \)[^6]。 #### 性质解释 - **最小性**: 如果存在另一个充分统计量 Y ,使得当前讨论的充分统计量可以通过某种函数关系映射到它上面去,则后者被称为前者的小型化版本或者极小充分统计量(minimal sufficient statistic)。上述提到的各种情况下的充分统计量实际上都是各自场景中的极小充分统计量。 - **完备性(completeness)**: 若某充分统计量满足一定条件使其成为完备统计量,则基于此构建无偏估计具有唯一最优解特性(Fisher–Neyman factorization theorem combined with Lehmann-Scheffé theorem)[^7]。 ```python import numpy as np def sample_mean_variance(data): """ 计算给定数据集的样本均值和未修正样本方差 参数: data : list or array-like object containing numeric values 返回: tuple of two elements representing the sample mean and uncorrected variance respectively. """ n = len(data) if n == 0: raise ValueError("Data cannot be empty.") sum_x = sum(data) squared_sum_x = sum([xi**2 for xi in data]) sample_mean = sum_x / n unc_var = (squared_sum_x/n)-(sample_mean**2) return sample_mean, unc_var # Example usage data_points = [3., 4., 5., 6., 7.] mean_val, var_val = sample_mean_variance(data_points) print(f"Sample Mean: {mean_val}") print(f"Uncorrected Sample Variance: {var_val}") ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值