概率与频率统计相关知识详解
1. 中心极限定理
当样本数量 (N) 增加时,某个和的分布会趋近于:
[p(S_N = u) = \frac{1}{\sqrt{2\pi N\sigma^2}} \exp\left(-\frac{(u - N\mu)^2}{2N\sigma^2}\right)]
定义 (Z_N \triangleq \frac{S_N - N\mu}{\sigma\sqrt{N}} = \frac{\bar{X} - \mu}{\sigma / \sqrt{N}}),其中 (\bar{X} = S_N / N) 为样本均值。随着 (N) 增大,(Z_N) 的分布会收敛到标准正态分布,这就是中心极限定理。
例如,从 beta 分布中抽取随机变量并计算样本均值,其抽样分布会迅速收敛到高斯分布。
2. 概率相关练习题
以下是一系列概率相关的练习题,涵盖条件独立、独立性关系、相关性等多个方面:
-
Exercise D.1 [条件独立性]
- 设 (H \in {1, \ldots, K}) 是离散随机变量,(e_1) 和 (e_2) 是另外两个随机变量 (E_1) 和 (E_2) 的观测值。要计算向量 (\vec{P}(H|e_1, e_2) = (P(H = 1|e_1, e_2), \ldots, P(H = K|e_1, e_2))),分析以下哪几组数据足够:
- (P(e_1, e_2)),(P(H)),(P(e_1|H)),(P(e_2|H))
- (P(e_1, e_2)),(P(H)),(P(e_1, e_2|H))
- (P(e_1|H)),(P(e_2|H)),(P(H))
- 假设 (E_1 \perp E_2|H)(即 (E_1) 和 (E_2) 在给定 (H) 时条件独立),上述哪几组数据仍然足够?需展示计算过程并给出最终结果,提示使用贝叶斯规则。
-
Exercise D.2 [成对独立不意味着相互独立]
- 两个随机变量 (X_1) 和 (X_2) 成对独立的定义为 (p(X_2|X_1) = p(X_2)),则 (p(X_2, X_1) = p(X_1)p(X_2))。
- (n) 个随机变量相互独立的定义为 (p(X_i|X_S) = p(X_i)),对于所有 (S \subseteq {1, \ldots, n} \setminus {i}),且 (p(X_{1:n}) = \prod_{i = 1}^{n} p(X_i))。
- 需通过反例证明所有变量对之间的成对独立不一定意味着相互独立。
-
Exercise D.3 [条件独立当且仅当联合因式分解]
已知 (X \perp Y|Z) 当且仅当 (p(x, y|z) = p(x|z)p(y|z))(对于所有 (p(z) > 0) 的 (x, y, z))。需证明另一个等价定义:(X \perp Y|Z) 当且仅当存在函数 (g) 和 (h),使得 (p(x, y|z) = g(x, z)h(y, z))(对于所有 (p(z) > 0) 的 (x, y, z))。
-
Exercise D.4 [不相关不意味着独立]
设 (X \sim U(-1, 1)) 且 (Y = X^2),显然 (Y) 依赖于 (X)。但需证明 (\rho(X, Y) = 0),提示:若 (X \sim U(a, b)),则 (E[X] = \frac{a + b}{2}) 且 (V[X] = \frac{(b - a)^2}{12})。
-
Exercise D.5 [相关系数在 -1 和 +1 之间]
证明 (-1 \leq \rho(X, Y) \leq 1)。
-
Exercise D.6 [线性相关变量的相关系数为 ±1]
若 (Y = aX + b)((a > 0) 且 (b) 为参数),则 (\rho(X, Y) = 1);若 (a < 0),则 (\rho(X, Y) = -1)。
-
Exercise D.7 [随机变量的线性组合]
设 (x) 是均值为 (m) 且协方差矩阵为 (\Sigma) 的随机向量,(A) 和 (B) 为矩阵。
- 推导 (Ax) 的协方差矩阵。
- 证明 (tr(AB) = tr(BA))。
- 推导 (E[x^T Ax]) 的表达式。
-
Exercise D.8 [两个随机变量最小值的期望值]
假设 (X) 和 (Y) 是从区间 ([0, 1]) 中独立且均匀随机抽取的两个点,求最左边点的期望位置。
-
Exercise D.9 [两个高斯分布的卷积是高斯分布]
证明两个高斯分布的卷积是高斯分布,即 (p(y) = N(x_1|\mu_1, \sigma_1^2) \otimes N(x_2|\mu_2, \sigma_2^2) = N(y|\mu_1 + \mu_2, \sigma_1^2 + \sigma_2^2)),其中 (y = x_1 + x_2),(x_1 \sim N(\mu_1, \sigma_1^2)) 且 (x_2 \sim N(\mu_2, \sigma_2^2))。
-
Exercise D.10 [和的方差]
证明 (V[X + Y] = V[X] + V[Y] + 2Cov[X, Y]),其中 (Cov[X, Y]) 是 (X) 和 (Y) 之间的协方差。
-
Exercise D.11 [推导逆伽马密度]
设 (X \sim Ga(a, b)) 且 (Y = 1/X),推导 (Y) 的分布。
-
Exercise D.12 [beta 分布的均值、众数和方差]
设 (\theta \sim Beta(a, b)),证明均值 (E[\theta] = \frac{a}{a + b}),方差 (V[\theta] = \frac{ab}{(a + b)^2(a + b + 1)}),众数 (mode[\theta] = \frac{a - 1}{a + b - 2})。
3. 频率统计简介
统计推断有两种主要方法,之前介绍的是贝叶斯统计,它将模型参数视为未知随机变量,并运用概率理论从数据中推断参数。而另一种方法是频率统计,也称为经典统计或正统统计,它避免将参数视为随机变量,不使用先验和贝叶斯规则。
频率统计的基本思想是通过计算从数据估计的量(如参数或预测标签)在数据变化时的变化情况来表示不确定性。这种基于重复试验的变化概念是频率统计建模不确定性的基础。与之相比,贝叶斯方法从信息角度看待概率,能够计算一次性事件的概率,并且避免了一些困扰频率统计的悖论。
4. 费舍尔信息矩阵(FIM)
费舍尔信息矩阵与对数似然函数的曲率相关,具有许多重要应用,如下表所示:
|应用|相关章节|
| ---- | ---- |
|MLE 的渐近抽样分布|Sec. E.3.1|
|克拉默 - 拉奥下界|Sec. E.4.2.1|
|杰弗里斯无信息先验|Sec. 7.3.1|
|自然梯度下降|Sec. 5.3.4|
-
定义
- 得分函数定义为对数似然的梯度:(s(\theta) \triangleq \nabla \log p(x|\theta))。
- 费舍尔信息矩阵(FIM)定义为得分函数的协方差:(F(\theta) \triangleq E_{x \sim p(x|\theta)}[\nabla \log p(x|\theta) \nabla \log p(x|\theta)^T]),其 ((i, j)) 元素形式为 (F_{ij} = E_{x \sim \theta}\left[\left(\frac{\partial}{\partial \theta_i} \log p(x|\theta)\right) \left(\frac{\partial}{\partial \theta_j} \log p(x|\theta)\right)\right])。
-
FIM 与负对数似然(NLL)海森矩阵的关系
在一定条件下,费舍尔信息矩阵等于负对数似然(NLL)的期望海森矩阵。即若 (\log p(x|\theta)) 二次可微且满足某些正则条件,则 (F(\theta) {ij} = E {x \sim \theta}\left[\left(\frac{\partial}{\partial \theta_i} \log p(x|\theta)\right) \left(\frac{\partial}{\partial \theta_j} \log p(x|\theta)\right)\right] = -E_{x \sim \theta}\left[\frac{\partial^2}{\partial \theta_i \theta_j} \log p(x|\theta)\right])。- 证明过程中先证明得分函数的期望值为零,即 (E_{p(x|\theta)}[\nabla \log p(x|\theta)] = 0)。
- 然后通过对相关等式求导和推导得出上述结论。
-
示例
- 伯努利分布的 FIM :若 (x \sim Ber(\theta)),单个样本的对数似然为 (l(\theta|x) = x \log \theta + (1 - x) \log(1 - \theta)),得分函数 (s(\theta|x) = \frac{x}{\theta} - \frac{1 - x}{1 - \theta}),费舍尔信息 (F(\theta) = \frac{1}{\theta(1 - \theta)})。
- 高斯分布的 FIM :对于单变量高斯分布 (p(x|\theta) = N(x|\mu, v)),通过计算偏导数可得 (F(\theta) = \begin{pmatrix} \frac{1}{v} & 0 \ 0 & \frac{1}{2v^2} \end{pmatrix})。
-
FIM 与 KL 散度的关系
费舍尔信息可以看作是两个相似分布之间 KL 散度的近似。设 (p_{\theta}(x)) 和 (p_{\theta’}(x)) 是两个分布,(\theta’ = \theta + \delta),则 (KL(p_{\theta} | p_{\theta’}) \approx \frac{1}{2} \delta^T F(\theta) \delta)。
5. 抽样分布
在频率统计中,不确定性由估计量的抽样分布表示,而非随机变量的后验分布。
-
定义
- 估计量是根据观测数据指定采取何种行动的决策程序,在参数估计中,用 (\hat{\theta} = \pi(D)) 表示,例如可以是最大似然估计、最大后验估计或矩估计。
- 估计量的抽样分布是将估计量多次应用于从某个分布中抽取的不同数据集时得到的结果分布。具体来说,从真实模型 (p(x|\theta^
)) 中抽取 (S) 个大小为 (N) 的不同数据集 (\tilde{D}^{(s)} = {x_n \sim p(x_n|\theta^
) : n = 1 : N}),对每个 (D^{(s)}) 应用估计量得到一组估计值 ({\hat{\theta}(D^{(s)})}),当 (S \to \infty) 时,这组值诱导的分布就是估计量的抽样分布,即 (p(\pi(\tilde{D}) = \theta|\tilde{D} \sim \theta^
) \approx \frac{1}{S} \sum_{s = 1}^{S} \delta(\theta = \pi(D^{(s)})))。
-
MLE 的精确抽样分布
-
单变量高斯分布示例
:给定大小为 (N) 的样本 (D),单变量高斯分布均值的 MLE 为 (\hat{\mu}(\tilde{D}) = \bar{x}),若数据由 (x_n \sim N(\mu, \sigma^2)) 生成,则 (\bar{x}) 的抽样分布为 (p(\bar{x}(\tilde{D}) = m|\tilde{D} \sim N(\mu, \sigma^2)) = T(m|\mu, \frac{s^2(\tilde{D})}{N}, N - 1)),其中 (s^2(\tilde{D}) = \frac{1}{N - 1} \sum_{n = 1}^{N} (x_n - \bar{x}(\tilde{D}))^2)。在许多简单情况下,抽样分布与使用无信息先验得到的后验分布相同,但语义上有很大差异。
-
线性回归示例
:线性回归中 MLE 的抽样分布通常表示为 (\frac{w_d - \hat{w}
d}{s_d} \sim t
{N - D}),其中 (\hat{w}
d) 是 OLS 估计,(s_d = \sqrt{\frac{\sigma
{unb}^2 C_{dd}}{N - D}}),这与使用无信息先验的边际后验分布等价。
-
大样本近似
当样本数量足够大时,某些模型的 MLE 抽样分布趋近于高斯分布。即若参数可识别,则 (p(\pi(\tilde{D}) = \hat{\theta}|\tilde{D} \sim \theta^
) \to N(\hat{\theta}|\theta^
, (NF(\theta^
))^{-1})),这是由于 MLE 的方差与对数似然曲面峰值处的曲率(由费舍尔信息衡量)成反比。
-
自助法近似
当估计量是数据的复杂函数时,可以使用自助法(一种蒙特卡罗技术)近似其抽样分布。
-
参数自助法
:由于真实参数 (\theta^
) 未知,用 (\hat{\theta} = \pi(D)) 代替 (\theta^
) 生成抽样数据集 (\tilde{D}^{(s)} = {x_n \sim p(x_n|\hat{\theta}) : n = 1 : N}),用这些数据集的估计值的经验分布作为抽样分布的近似。
-
非参数自助法
:从原始数据中有放回地抽取 (N) 个数据点,形成新的数据集 (D^{(s)}),平均而言,自助样本中唯一数据点的数量约为 (0.632N)。
以下是频率统计中抽样分布相关概念的流程图:
graph LR
A[频率统计] --> B[抽样分布]
B --> C[估计量定义]
B --> D[抽样分布定义]
D --> E[精确抽样分布]
D --> F[大样本近似]
D --> G[自助法近似]
E --> E1[单变量高斯示例]
E --> E2[线性回归示例]
G --> G1[参数自助法]
G --> G2[非参数自助法]
通过以上内容,我们对概率和频率统计的相关知识有了更深入的了解,包括中心极限定理、费舍尔信息矩阵以及抽样分布等重要概念。这些知识在统计推断和机器学习中都有着广泛的应用。
概率与频率统计相关知识详解
6. 精确抽样分布的深入探讨
在前面提到了单变量高斯分布和线性回归的 MLE 精确抽样分布,这里进一步深入分析其意义和应用。
对于单变量高斯分布,抽样分布 (p(\bar{x}(\tilde{D}) = m|\tilde{D} \sim N(\mu, \sigma^2)) = T(m|\mu, \frac{s^2(\tilde{D})}{N}, N - 1)) 表明,当我们从真实的高斯分布中多次抽样并计算样本均值时,样本均值会围绕真实均值 (\mu) 呈现出一定的分布规律。随着样本量 (N) 的增加,这个分布会逐渐收敛到以 (\mu) 为中心的更紧密的分布,这体现了大数定律的思想。在实际应用中,我们可以利用这个抽样分布来估计真实均值的置信区间,例如,通过找到抽样分布的分位数,我们可以确定一个区间,使得真实均值有一定的概率落在这个区间内。
在线性回归中,抽样分布 (\frac{w_d - \hat{w} d}{s_d} \sim t {N - D}) 同样有着重要的作用。它可以帮助我们评估估计参数的不确定性。例如,我们可以计算参数的置信区间,判断某个参数是否显著不为零,从而确定该变量在模型中的重要性。如果某个参数的置信区间包含零,那么我们可能需要重新考虑该变量是否应该包含在模型中。
7. 大样本近似的证明与应用
大样本近似 (p(\pi(\tilde{D}) = \hat{\theta}|\tilde{D} \sim \theta^ ) \to N(\hat{\theta}|\theta^ , (NF(\theta^*))^{-1})) 是频率统计中的一个重要结论。下面详细阐述其证明过程和应用场景。
-
证明过程
- 首先定义对数似然函数 (l(\theta) = \sum_{n = 1}^{N} \log p(x_n|\theta))。根据大数定律,(\frac{1}{N} l(\theta) \to E[\log p(X|\theta)] = \int p(x|\theta^*) \log p(x|\theta) dx)。
- 对期望对数似然求导:(\frac{\partial}{\partial \theta} \int p(x|\theta^ ) \log p(x|\theta) dx = \int p(x|\theta^ ) \frac{\frac{\partial}{\partial \theta} p(x|\theta)}{p(x|\theta)} dx)。在 (\theta = \theta^ ) 处,梯度为零,因为 (\int \left[\frac{\partial}{\partial \theta} p(x|\theta)\big|_{\theta = \theta^ }\right] dx = \frac{\partial}{\partial \theta} \left[\int p(x|\theta) dx\right]_{\theta = \theta^*} = \frac{\partial}{\partial \theta} 1 = 0)。
- 由于 MLE (\hat{\theta}) 是使对数似然最大的点,所以在 (\hat{\theta}) 处梯度也为零。如果只有一个这样的驻点,那么 (\hat{\theta} \to \theta^*),这表明 MLE 是一个一致估计量。
- 接下来考虑估计值的方差。对 (l’(\hat{\theta})) 进行二阶泰勒展开:(0 = l’(\hat{\theta}) \approx l’(\theta^ ) + (\hat{\theta} - \theta^ ) l’‘(\theta^ )),得到 ((\hat{\theta} - \theta^ ) \approx -\frac{l’(\theta^ )}{l’‘(\theta^ )})。进一步变形为 (\sqrt{N} (\hat{\theta} - \theta^ ) \approx -\frac{N^{-\frac{1}{2}} l’(\theta^ )}{N^{-1} l’‘(\theta^*)})。
- 计算分子的期望和方差:(E\left[-N^{-\frac{1}{2}} l’(\theta^ )\right] = N^{-\frac{1}{2}} \sum_{n = 1}^{N} E\left[\frac{\partial}{\partial \theta} \log p(x_n|\theta^ )\right] = 0),(V\left[-N^{-\frac{1}{2}} l’(\theta^ )\right] = N^{-1} \sum_{n = 1}^{N} E\left[\left(\frac{\partial}{\partial \theta} \log p(x_n|\theta^ )\right)^2\right] = F(\theta^*))。
- 分母根据大数定律:(\frac{1}{N} l’‘(\theta^ ) = \frac{1}{N} \sum_{n = 1}^{N} \frac{\partial^2}{\partial \theta^2} \log p(x_n|\theta^ ) \to E\left[\frac{\partial^2}{\partial \theta^2} \log p(x|\theta^ )\right] = -F(\theta^ ))。
- 最终得到 (\sqrt{N} (\hat{\theta} - \theta^ ) \approx \frac{N^{-\frac{1}{2}} l’(\theta^ )}{F(\theta^ )}),其期望约为零,方差约为 (\frac{1}{F(\theta^ )}),即 (V[\hat{\theta} - \theta^ ] \approx \frac{1}{NF(\theta^ )})。由于对数似然是独立同分布随机变量的和,根据中心极限定理,(\hat{\theta}) 的分布趋近于高斯分布。
-
应用场景
大样本近似在实际应用中非常有用。当样本量很大时,我们可以利用高斯分布的性质来进行统计推断。例如,我们可以更方便地计算参数的置信区间,进行假设检验等。相比于精确抽样分布的计算,高斯近似的计算更加简单,减少了计算复杂度。
8. 自助法近似的优缺点与实现步骤
自助法近似是一种在估计量复杂时有效的抽样分布近似方法。下面分析其优缺点和具体实现步骤。
-
优点
- 不需要对数据的分布做出严格假设,适用于各种复杂的数据分布和估计量。
- 可以处理小样本问题,在样本量较小时也能提供较好的近似。
- 实现相对简单,只需要进行有放回的抽样操作。
-
缺点
- 计算量较大,需要多次抽样和估计,尤其是当样本量和抽样次数都较大时。
- 对于一些极端情况,自助法的近似效果可能不理想。
-
实现步骤
-
参数自助法
- 从原始数据 (D) 中计算估计量 (\hat{\theta} = \pi(D))。
-
重复 (S) 次以下步骤:
- 从分布 (p(x|\hat{\theta})) 中抽取大小为 (N) 的数据集 (\tilde{D}^{(s)} = {x_n \sim p(x_n|\hat{\theta}) : n = 1 : N})。
- 对 (\tilde{D}^{(s)}) 应用估计量得到 (\hat{\theta}^{(s)} = \pi(\tilde{D}^{(s)}))。
- 用 ({\hat{\theta}^{(s)}} {s = 1}^{S}) 的经验分布作为抽样分布的近似,即 (p(\pi(\tilde{D}) = \theta|\tilde{D} \sim \theta^*) \approx \frac{1}{S} \sum {s = 1}^{S} \delta(\theta = \pi(D^{(s)})))。
-
非参数自助法
- 从原始数据 (D) 中有放回地抽取 (N) 个数据点,形成新的数据集 (D^{(s)})。
- 重复 (S) 次步骤 1,得到 (S) 个新数据集。
- 对每个 (D^{(s)}) 应用估计量得到 (\hat{\theta}^{(s)} = \pi(D^{(s)}))。
- 用 ({\hat{\theta}^{(s)}}_{s = 1}^{S}) 的经验分布作为抽样分布的近似。
-
参数自助法
9. 频率统计与贝叶斯统计的比较
频率统计和贝叶斯统计是统计推断中的两种主要方法,它们有着不同的思想和应用场景。下面通过对比它们的优缺点和适用情况,帮助读者更好地理解和选择合适的方法。
| 比较项目 | 频率统计 | 贝叶斯统计 |
|---|---|---|
| 参数处理 | 将参数视为固定但未知的量,不使用先验信息 | 将参数视为随机变量,结合先验信息和数据进行推断 |
| 不确定性表示 | 通过抽样分布表示不确定性 | 通过后验分布表示不确定性 |
| 适用场景 | 适用于大样本数据,对数据的分布有一定了解,更注重估计的一致性和渐近性质 | 适用于小样本数据,有先验信息可用,需要对一次性事件进行概率计算 |
| 优点 | 方法成熟,有大量的理论和实践经验,计算相对简单 | 能够充分利用先验信息,对小样本数据有较好的处理能力,能够计算一次性事件的概率 |
| 缺点 | 难以处理小样本问题,对数据的分布假设较为严格,可能会出现一些悖论 | 先验信息的选择可能会影响结果,计算复杂度较高 |
10. 总结与展望
通过对概率和频率统计相关知识的学习,我们了解了中心极限定理、费舍尔信息矩阵、抽样分布等重要概念。这些知识在统计推断、机器学习等领域有着广泛的应用。
在未来的研究和实践中,我们可以进一步探索频率统计和贝叶斯统计的结合方法,充分发挥它们的优势,提高统计推断的准确性和可靠性。例如,在小样本情况下,可以先利用贝叶斯方法结合先验信息进行初步估计,然后再用频率统计方法进行验证和调整。同时,随着数据量的不断增加和计算能力的提升,我们可以更深入地研究大样本近似和自助法近似的性质,开发更高效的算法和方法。
此外,对于费舍尔信息矩阵的研究也可以进一步拓展。例如,探索其在高维数据和复杂模型中的应用,以及如何利用费舍尔信息矩阵进行模型选择和特征选择等。
总之,概率和频率统计是统计学中的重要组成部分,它们的发展和应用将为我们解决各种实际问题提供有力的支持。
以下是频率统计与贝叶斯统计比较的流程图:
graph LR
A[统计推断方法] --> B[频率统计]
A --> C[贝叶斯统计]
B --> B1[参数固定]
B --> B2[抽样分布表示不确定性]
B --> B3[大样本适用]
B --> B4[优点: 方法成熟]
B --> B5[缺点: 小样本难处理]
C --> C1[参数随机]
C --> C2[后验分布表示不确定性]
C --> C3[小样本适用]
C --> C4[优点: 利用先验信息]
C --> C5[缺点: 先验选择影响结果]
通过以上内容,我们对概率和频率统计的相关知识有了更全面和深入的理解,希望这些知识能够帮助读者在实际应用中做出更合理的统计推断。
概率与频率统计核心知识详解
超级会员免费看
881

被折叠的 条评论
为什么被折叠?



