数理统计期末复习笔记（二）

最新推荐文章于 2025-07-15 17:02:01 发布

原创最新推荐文章于 2025-07-15 17:02:01 发布 · 836 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#概率论 #统计

图书阅读同时被 2 个专栏收录

14 篇文章

订阅专栏

课程复习资料

9 篇文章

订阅专栏

本文是数理统计的期末复习笔记，重点涵盖了贝叶斯方法、统计决策、偏差分析和线性回归。介绍了贝叶斯估计、决策规则、ANOVA分析和线性回归模型，包括简单和多元线性回归的细节，如残差分析和模型检验。

数理统计期末复习笔记

主要内容：
贝叶斯估计，统计决策，偏差分析，线性回归

贝叶斯方法

基本概念

贝叶斯派的观点认为，概率就是信念
贝叶斯推断： $θ\theta$ ：作为随机变量， $X1,...,Xn∼p(x∣θ)X_1,...,X_n\sim p(x|\theta)$ ，后验 $∼\sim$ 先验*似然，即 $p(θ∣x1,...,xn)∼p(θ)×p(x1,...,xn∣θ)p(\theta|x_1,...,x_n)\sim p(\theta)\times p(x_1,...,x_n|\theta)$

对 $θ\theta$ 的贝叶斯估计： $θ^=E(θ∣x)\hat{\theta}=E(\theta|x)$
先验的构造：
- 平坦先验：均匀分布，密度函数为常数；但是对于数据变换并不是不变的
- Jeffery先验：先验对于fisher信息变换必须不变，即 $πJ(θ)=(det(In(θ)))1/2\pi_J(\theta)=(det(I_n(\theta)))^{1/2}$ ，这里I_n是用样本的似然 $p(x∣θ)p(x|\theta)$ 求的；但是只有一维的时候比较高效
- Reference先验：希望从先验中汲取到的信息最少： $p(θ)=argmax⁡θdKL(p(θ),p(θ∣x))p(\theta)=\operatorname{argmax}_\theta d_{KL}(p(\theta),p(\theta|x))$ , $dKL(P∥Q)=∫−∞∞p(x)ln⁡p(x)q(x)dxd_{\mathrm{KL}}(P \| Q)=\int_{-\infty}^{\infty} p(x) \ln \frac{p(x)}{q(x)} \mathrm{d} x$ ；在一维下，Jeffery先验和reference先验相等
- conjugate先验：选择先验使得和后验的分布一样；即寻找共轭组 $F$ 使得先验和后验均在其中
贝叶斯置信区间：

$P(θ∈[L(U),C(U)]∣X)=1−αP(\theta\in [L(U),C(U)]|X)=1-\alpha$
贝叶斯检验：

贝叶斯检验同样建立在后验上。在检验中，比较 $P(θ∈Θ0∣x)P(\theta\in\Theta_0|x)$ 和 $P(θ∈Θ1∣x)P(\theta\in\Theta_1|x)$ ，哪个大就推断 $θ\theta$ 满足哪个。（设定域的自由度降低了不少）

统计决策

基本概念

决策规则： $X$ 为分布 $P$ 中随机产生的若干样本根据 $X$ 来决定若干行动，称为决策： $D:(X,FX)→(A,FA)D:(X,F_X)\rightarrow (A,F_A)$ , $F$ ： $σ\sigma$ -域

决策的估值：loss function $L(θ,a)L(\theta,a)$ ：在情况 $θ\theta$ 下选择行动a的代价

eg：平方损失函数，p-范数，0-1损失函数等
有些决策具有随机性，需要引入风险函数： $R(θ,a)=EθL(θ,a)R(\theta,a)=E_\theta L(\theta,a)$ （这里是指对 $p(X∣θ)p(X|\theta)$ 求期望，因为 $a$ 是根据 $X$ 决定的）

对于决策规则 $A, B$ ，如果对任意 $θ\theta$ ，A的选择的风险都不比B大，则称A至少和B一样好（互相=>等价）

对于一族决策规则 $T\mathcal{T}$ ，决策规则 $T^*$ 称为 $T\mathcal{T}$ -最优的，如果它和任何其他决策都至少一样好

对于一组决策规则 $T\mathcal{T}$ ，决策规则 $T$ 称为 $T\mathcal{T}$ -可采纳的（admissible），如果没有决策和它至少一样好
Rao-blackwell定理：对于一个非随机策略 $T_0$ 和凸的损失函数，考虑 $H$ 为一个充分统计量，那么 $T_1=E(T_0(x)|H)$ 一定至少和它一样好；因此只需要考虑仅和充分统计量有关的规则即可

对决策规则的进一步提升

最大最小风险

最大最小估计： $Rn≜inf⁡θ^∈Tsup⁡θR(θ,θ^)R_n\triangleq \inf_{\hat{\theta}\in T} \sup_{\theta}R(\theta,\hat{\theta})$

即：在一族规则中，选择最大风险最小的那个
贝叶斯风险

考虑先验 $π\pi$ 下贝叶斯风险为： $Bπ(θ^)=∫R(θ,θ^)π(θ)dθB_\pi (\hat{\theta})=\int R(\theta,\hat{\theta})\pi(\theta)d\theta$ ，故贝叶斯估计： $inf⁡θ^∈TBπ(θ^)\inf_{\hat{\theta}\in T} B_\pi(\hat{\theta})$

贝叶斯检验的性质： $π\pi$ 为先验=>后验分布： $π(θ∣x)∼p(x∣θ)π(θ)\pi(\theta|x)\sim p(x|\theta)\pi(\theta)$

后验风险：考虑 $r(θ^∣x)=∫L(θ,θ^)π(θ∣x)dθr(\hat{\theta}|x)=\int L(\theta,\hat{\theta})\pi(\theta|x)d\theta$

定理： $θ^(x)=argmin⁡θr(θ^∣x)\hat{\theta}(x)=\operatorname{argmin}_\theta r(\hat{\theta}|x)$

示例： $L=(θ−θ^)2L=(\theta-\hat{\theta})^2$ ： $θ^\hat{\theta}$ = $π(θ∣x)\pi(\theta|x)$ 的期望； $L=∣θ−θ^∣L=|\theta-\hat{\theta}|$ ：中位数； $L = 0 - 1$ ：单峰
关联：拥有常数的风险函数的贝叶斯估计必然是最大最小估计

应用：证明某个策略是最大最小估计：构造恰当的先验给出一个常数风险的贝叶斯估计

注：最大似然估计MLE 渐近地是最大最小估计

偏差分析Analysis of Variance

对三组及以上的人群做偏差分析，对其差别做推断

单路ANOV（数据按照某个值分类）

模型： $Yij=θi+ϵij,i=1∼I,j=1∼niY_{ij}=\theta_i+\epsilon_{ij},i=1\sim I,j=1\sim n_i$ ，其中 $E(ϵij)=0,Var(ϵij)=σi2E(\epsilon_{ij})=0,Var(\epsilon_{ij})=\sigma_i^2$

替代模型： $Yij=μ+γi+ϵijY_{ij}=\mu+\gamma_i+\epsilon_{ij}$ ，但是不是可确定（identifiable）模型，因为参数值和分布并不一一对应

其它假设：
- 方差齐性（homoscedasticity），即 $σi2=σ2\sigma_i^2=\sigma^2$ ，否则不好估计（如果无法满足，考虑使用box-cox变换：取 $(yλ−1)/λ(y^\lambda-1)/\lambda$ ）
- 正态性： $ϵij∼N(0,σ2)\epsilon_{ij}\sim N(0,\sigma^2)$
ANOVA检验：

希望检验： $H0:θ1=....=θIH_0:\theta_1=....=\theta_I$

$SSTOT=∑i∑j(Yij−Y‾)2=∑i∑j(Yij−Y‾i⋅)2+∑ini(Y‾i⋅−Y‾⋅⋅)2=SSW+SSBSS_{TOT}=\sum_{i}\sum_{j} (Y_{ij}-\overline{Y})^2=\sum_i\sum_j (Y_{ij}-\overline{Y}_{i\cdot})^2+\sum_i n_i(\overline{Y}_{i\cdot}-\overline{Y}_{\cdot\cdot})^2=SS_W+SS_B$ (w: within group, b: between group)

推论：在方差齐性假设下： $E(SSW)=∑i(ni−1)σ2,E(SSB)=∑ini(θi−θ‾)2+(I−1)σ2E(SS_W)=\sum_i (n_i-1)\sigma^2, E(SS_B)=\sum_i n_i(\theta_i-\overline{\theta})^2+(I-1)\sigma^2$

一个很常用的引理： $E(Xi)=μi,Var(Xi)=σ2E(X_i)=\mu_i, Var(X_i)=\sigma^2$ ，则 $E(Xi−X‾)2=(μi−μ‾)2+n−1nσ2E(X_i-\overline{X})^2=(\mu_i-\overline{\mu})^2+\frac{n-1}{n} \sigma^2$

因此： $E(SSB)≥(I−1)σ2E(SS_B)\geq (I-1)\sigma^2$ 当且仅当零假设成立时取等

推论：在方差齐性+正态+分组数量相同假设下： $SSW/σ2∼χI(J−1)2,SSB/σ2∼χI−12SS_W/\sigma^2\sim \chi^2_{I(J-1)}, SS_B/\sigma^2\sim \chi^2_{I-1}$

因此，我们得到一个F统计量： $F=SSB/(I−1)SSW/(J−1)IF=\frac{SS_B/(I-1)}{SS_W/(J-1)I}$ ，在零假设下满足F分布，因此可以利用似然比方法构造测试

另一种ANOVA： $Ta=∣∑i=1aiYˉi.−∑i=1aiθiSp2∑i=1kai2/ni∣T_a=\left|\frac{\sum_{i=1} a_i \bar{Y}_{i .}-\sum_{i=1} a_i \theta_i}{\sqrt{S_p^2 \sum_{i=1}^k a_i^2 / n_i}}\right|$ ， $T_a>k$ 则拒绝（？）

ANOVA表格：计算ANOVA的标准方式

方差来源	自由度	SS（方差和）	MS（平均方差）	F统计量
组间	k-1	$∑ini(Y‾i⋅−Y‾⋅⋅)2\sum_i n_i(\overline{Y}_{i\cdot}-\overline{Y}_{\cdot\cdot})^2$	SSB/(k-1)	MSB/MSW
组内	N-k	$∑i∑j(Yij−Y‾i⋅)2\sum_i\sum_j (Y_{ij}-\overline{Y}_{i\cdot})^2$	SSW/(N-k)
总计	N-1	$∑i∑j(Yij−Y‾)2\sum_{i}\sum_{j} (Y_{ij}-\overline{Y})^2$

Kruskal-Wallis检验（非参数方法）

如果数据并不满足正态分布，如何检验 $H_0:$ 所有组的分布都相同？

考虑将所有数据直接重新按照从小到大排列，记数据 $Y_{ij}$ 在其中的顺序为 $R_{ij}$ ，则 $SSB=∑ini(R‾i⋅−R‾⋅⋅)2SS_B=\sum_i n_i (\overline{R}_{i\cdot} -\overline{R}_{\cdot\cdot})^2$ ，其为 $R$ 的分散程度的度量。SSB越大，则说明零假设越可能不成立。可以证明，在零假设下， $K=12N(N+1)SSB∼χI−12K=\frac{12}{N(N+1)} SS_B\sim \chi^2_{I-1}$ ，并且 $P(χI−12>K)P(\chi^2_{I-1}>K)$ 即为一个K值

线性回归

线性回归是最早提出的统计方法之一，在AI,ML中均有广泛的使用

简单线性回归：

模型：使用样本 $X, Y$ 预测 $Y=β0+β1XY=\beta_0+\beta_1X$

$Sxx=∑i(xi−x‾)2S_{xx}=\sum_i (x_i-\overline{x})^2$ ， $Syy=∑i(yi−y‾)2S_{yy}=\sum_i (y_i-\overline{y})^2$ ， $Sxy=∑i(xi−x‾)(yi−y‾)S_{xy}=\sum_i (x_i-\overline{x})(y_i-\overline{y})$

残差： $ei=yi−y^ie_i=y_i-\hat{y}_i$ ，其中 $yi^=β0+β1xi\hat{y_i}=\beta_0+\beta_1x_i$ 为预测值

$β0,β1\beta_0,\beta_1$ 最小化残差平方和： $RSS=∑iei2RSS=\sum_i e_i^2$ ，可以解得 $β^1=SxySxx\hat{\beta}_1=\frac{S_{xy}}{S_{xx}}$ ， $β0^=y‾−β1^x‾\hat{\beta_0}=\overline{y}-\hat{\beta_1}\overline{x}$ ，称为BLUE（best linear unbiased estimator）

同理，如果假设 $x=β~0+β~1y{x}=\tilde{\beta}_0+\tilde{\beta}_1y$ ，则可以解得 $β~1=SxySyy\tilde{\beta}_1=\frac{S_{xy}}{S_{yy}}$ ， $β0~=x‾−β1~y‾\tilde{\beta_0}=\overline{x}-\tilde{\beta_1}\overline{y}$
模型：假设样本满足分布： $Y=β0+β1X+ϵi,ϵi∼N(0,σ2)Y=\beta_0+\beta_1X+\epsilon_i,\epsilon_i\sim N(0,\sigma^2)$

其MLE恰好就是LSE

在这个模型下的计算往往将X_i看做常数，采用对变量Y_i的分解计算，因为Y_i的基本信息是清楚的，而且互相独立

$E(RSS)=(n−2)σ2E(RSS)=({n-2})\sigma^2$ ，故 $S2=RSSn−2S^2=\frac{RSS}{n-2}$ 是 $σ2\sigma^2$ 的无偏估计， $β^0∼N(β0,σ2nSxx∑ixi2)\hat{\beta}_0\sim N(\beta_0,\frac{\sigma^2}{nS_{xx}} \sum_i x_i^2)$ ， $β^1∼N(β1,σ2Sxx)\hat{\beta}_1\sim N(\beta_1,\frac{\sigma^2}{S_{xx}})$ ， $Cov⁡(β^0,β^1)=−σ2xˉSxx\operatorname{Cov}\left(\widehat{\beta}_0, \widehat{\beta}_1\right)=-\frac{\sigma^2 \bar{x}}{S_{x x}}$ ； $S^2$ 与 $β^0,β^1\hat{\beta}_0,\hat{\beta}_1$ 独立，有 $(n−2)S2σ2∼χn−22\frac{(n-2) S^2}{\sigma^2} \sim \chi_{n-2}^2$

如果需要检验 $β1\beta_1$ 是否为0，则 $β^1\hat{\beta}_1$ 的分布可以帮助构造一个估计： $t=β^1S2/Sxx∼tn−2t=\frac{\widehat{\beta}_1}{S^2/S_{xx}}\sim t_{n-2}$ ，t为学生t分布
模型的准确性检验：

为了检验线性回归到底能否准确表现原问题的结果，一般使用两个统计量
- RSE $:=RSSn−2:=\sqrt{\frac{RSS}{n-2}}$ （residual standard error）
- $R^2$ ：注意到 $∑i=1n(yi−yˉ)2=SST=SSR+SSE=∑i=1n(y^i−yˉ)2+∑i=1n(yi−y^i)2\sum_{i=1}^n\left({y}_i-\bar{y}\right)^2=SST=SSR+SSE=\sum_{i=1}^n\left(\hat{y}_i-\bar{y}\right)^2+\sum_{i=1}^n\left(y_i-\hat{y}_i\right)^2$ ，注意：这里的 $SSE = RSS$
  
  因此， $R2=SSrSST=∑i(yi^−y‾)2∑i(yi−y‾)2R^2=\frac{SSr}{SST}=\frac{\sum_i (\hat{y_i}-\overline{y})^2}{\sum_i ({y_i}-\overline{y})^2}$ ，所以， $R^2$ 越接近1，SST中可以被回归模型解释的部分就越多。
  
  注：可以证明： $R2=Sxy2SxxSyyR^2=\frac{S_{xy}^2}{S_{xx}S_{yy}}$
模型的预测：

对于任意 $x$ ，模型的预测值 $β^0+β^1x0∼N(β0+β1x0,σ2(1n+(x0−x‾)2Sxx))\hat{\beta}_0+\hat{\beta}_1x_0\sim N(\beta_0+\beta_1x_0,\sigma^2(\frac{1}{n}+\frac{ (x_0-\overline{x})^2}{S_{xx}}))$ . 考虑到 $S^2=RSS/(n-2)$ 是 $σ2\sigma^2$ 的无偏估计，并且 $(n−2)S2σ2∼χn−22\frac{(n-2) S^2}{\sigma^2} \sim \chi_{n-2}^2$ ，因此 $β^0+β^1x0−(β0+β1x0)S1n+(x0−xˉ)2Sxx∼tn−2\frac{\widehat{\beta}_0+\widehat{\beta}_1 x_0-\left(\beta_0+\beta_1 x_0\right)}{S \sqrt{\frac{1}{n}+\frac{\left(x_0-\bar{x}\right)^2}{S_{x x}}}} \sim t_{n-2}$

因此，对于要预测的 $β0+β1x0\beta_0+\beta_1x_0$ ，一个 $1−α1-\alpha$ 的置信区间为 $β^0+β^1x0±tn−2,1−α/2S1n+(x0−xˉ)2Sxx\widehat{\beta}_0+\widehat{\beta}_1 x_0\pm t_{n-2,1-\alpha / 2} S \sqrt{\frac{1}{n}+\frac{\left(x_0-\bar{x}\right)^2}{S_{x x}}}$

同理，如果要对一群样本做confidence interval，将 $1−α/2→1−(α/2m)1-\alpha/2\rightarrow 1-(\alpha/2m)$ 即可

该方法可以推广出更加一般的统计量： $P(max⁡t((Yˉ−μYˉ)+(β^1−β1)t)2S2(1n+t2Sx)≤Mα2)=1−αP\left(\max _t \frac{\left(\left(\bar{Y}-\mu_{\bar{Y}}\right)+\left(\widehat{\beta}_1-\beta_1\right) t\right)^2}{S^2\left(\frac{1}{n}+\frac{t^2}{S_{\mathrm{x}}}\right)} \leq M_\alpha^2\right)=1-\alpha$ , $Mα=2F2,n−2,1−αM_\alpha=\sqrt{2F_{2,n-2,1-\alpha}}$

多元线性回归

p个观测值： $yi=β0+β1Xi1+...+βpXip+ϵiy_i=\beta_0+\beta_1 X_{i1}+...+\beta_p X_{ip}+\epsilon_i$ ，即： $Y=Xβ+ϵY=X\beta+\epsilon$ ，其中 $X=(1,x_{ij})$

$RSS(β)=(y−Xβ)T(y−Xβ)RSS(\beta)=(y-X\beta)^T(y-X\beta)$ ，从而 $β^=(XTX)−1XTy\hat{\beta}=(X^T X)^{-1}X^T y$ ，如果不满秩则取广义逆

$E(XTAX)=Tr(AΣ)+μTAμ,Cov(β^)=σ2(XTX)−1E(X^T AX)=Tr(A\Sigma)+\mu^T A\mu, Cov(\hat{\beta})=\sigma^2 (X^T X)^{-1}$

残差向量： $e^=(I−H)Y\widehat{e}=(I-H) Y$ , $H=X(X^T X)^{-1}X^T$ 为Y到 $span{X}$ 上的投影算子

$E(RSS)=E(e^Te^)=E(YT(I−H)Y)=(E(Y))T(I−H)E(Y)+σ2(n−p)E(RSS)=E(\hat{e}^T\hat{e})=E(Y^T (I-H)Y)=(E(Y))^T\left(I-H\right) E(Y)+\sigma^2 (n-p)$

预测值： $y^=Xβ^=Hy\hat{y}=X\hat{\beta}=Hy$ ；即使 $X^TX$ 奇异，预测出来的值依然是一样的

检验： $β1=...=βp=0\beta_1=...=\beta_p=0$ （这里不管 $β0\beta_0$ ），则一个F测试为： $(TSS−RSS)/pRSS/(n−p−1)\frac{(T S S-R S S) / p}{R S S /(n-p-1)}$ ， $F$ 接近1时为 $H_0$ ，否则为 $H_1$

检验： $βp−q+1=...=βp=0\beta_{p-q+1}=...=\beta_{p}=0$ ，则一个F测试为： $(RSS0−RSS)/qRSS/(n−p−1)\frac{(RSS_0-R S S) / q}{R S S /(n-p-1)}$ ，其中 $RSS_0$ 为不用后q个变量做回归后的RSS

线性回归的常见问题

$ϵi\epsilon_i$ 之间并不无关

检测：绘制纵轴 $e_i$ 横轴 $y^i\hat{y}_i$ 的散点图并观察图式是否随机

解决：
数据的真实关系并非线性

检测：绘制纵轴 $e_i$ 横轴 $y^i\hat{y}_i$ 的散点图并观察期望是否接近0
$Var(ϵi)≠σ2Var(\epsilon_i)\neq \sigma^2$

检测：绘制纵轴 $e_i$ 横轴 $y^i\hat{y}_i$ 的散点图并观察与0的距离是否均匀

解决： $y→log⁡yy\rightarrow \log y$
异常数据

检测：对数据做studentize：leverage： $h_{ii}$ 为投影矩阵H的对角线上第i个元素。注意： $H^T H=H$ ，从而 $hii=∑jhij2=1n+(xi−x‾)2∑j(xj−x‾)2h_{ii}=\sum_j h_{ij}^2=\frac{1}{n}+\frac{(x_i-\overline{x})^2}{\sum_j (x_j-\overline{x})^2}$ ，再定义 $ti=ϵi^σ^1−hiit_i=\frac{\hat{\epsilon_i}}{\hat{\sigma}\sqrt{1-h_{ii}}}$ ，其中 $σ^2=∑jϵj2^n\hat{\sigma}^2=\frac{\sum_j \hat{\epsilon_j^2}}{n}$ ，绘制 $h_{ii},t_{i})$ 的散点图即可找到异常
同线性（不同的X值（predictor）之间可能相关）

检测：VIF（variance influence factor）

$VIFk=11−Rk2VIF_k=\frac{1}{1-R_k^2}$ ，其中 $R_k^2$ 为用其它所有变量对 $x_k$ 做回归得到的回归的R值，如果趋近于1则可认为独立，如果大于5左右则有关

解决：丢掉一个相关度过高的变量/合并两个相关变量
y不连续

此时不能做线性回归，因为可解释性太差
- 逻辑思谛回归：(y二值)
  
  对 $logit(p(X))=β0+β1Xlogit(p(X))=\beta_0+\beta_1X$ 做线性回归，用MLE求解方程；预测 $x$ 的概率： $p^(Y=1∣x)=eβ0^+β1^x1+eβ0^+β1^x\hat{p}(Y=1|x)=\frac{e^{\hat{\beta_0}+\hat{\beta_1}x}}{1+e^{\hat{\beta_0}+\hat{\beta_1}x}}$
- 线性分辨
  
  先估计 $P (X = k ∣ Y = j)$ ，再用贝叶斯法则计算 $P (Y = j ∣ X = k)$ ，贝叶斯分类器：输出 $k=argmax⁡jP(Y=j∣X=k)k=\operatorname{argmax}_j P(Y=j|X=k)$ ，如果已知模型，则可以考虑使用MLE来估算
  
  混淆矩阵：列出预测和真实的正确对应关系（类似假设检验）=>specificity：对的预测对的比例；sensitivity：错的预测错的比例。两个都是越高越好，但是很难同时高；但是在二元情形可以通过修改判断为对的阈值来计算
- KNN（k-近邻）
  
  直接观察一个点的最近的k个邻居的频率，然后模仿最高的频率；距离度量：Mink距离，cosine距离等等
  
  优势：容易执行，超参数少
  
  缺点：过拟合，维度灾难，对内容占用巨大

常用分布：

指数组分布

标准形式： $p(x∣θ)=h(x)c(θ)exp⁡{∑j=1kuj(θ)tj(x)}p(x|\theta)=h(x)c(\theta)\exp\{\sum_{j=1}^k u_j(\theta)t_j(x)\}$

性质：若 $Ω=T(x)\Omega=T(x)$ 包含一个 $Rk\mathbb{R}^k$ 中的开集，则 $T(x)=(∑i=1nt1(xi),...,∑i=1ntk(xi))T(x)=(\sum_{i=1}^n t_1(x_i),...,\sum_{i=1}^n t_k(x_i))$ 是一组完全+充分统计量

常见的指数组：
- 指数分布： $p(x∣λ)=λe−λxp(x|\lambda)=\lambda e^{-\lambda x}$ ，则 $h(x)=1,c(λ)=λ,u1(λ)=λ,t1(x)=−xh(x)=1,c(\lambda)=\lambda,u_1(\lambda)=\lambda,t_1(x)=-x$
  
  完全统计量： $∑ixi\sum_i x_i$ ，期望 $1/λ1/\lambda$ ，方差 $1/λ21/\lambda^2$
  
  n个指数分布的和： $Γ(n,λ)\Gamma(n,\lambda)$
- 正态分布： $p(x∣σ,μ)=12πσ2e−(x−μ)22σ2p(x|\sigma,\mu)=\frac{1}{\sqrt{2\pi \sigma^2}} e^{-\frac{ (x-\mu)^2}{2\sigma^2}}$ ，则 $h(x)=1/2π,c(σ,μ)=1/σe−μ2/σ2,u1(σ,μ)=1/2σ2,t1(x)=x2,u2(σ,μ)=μ/σ2,t2(x)=xh(x)=1/\sqrt{2\pi},c(\sigma,\mu)=1/\sigma e^{-\mu^2/\sigma^2},u_1(\sigma,\mu)=1/2\sigma^2,t_1(x)=x^2,u_2(\sigma,\mu)=\mu/\sigma^2,t_2(x)=x$
  
  完全统计量： $(∑ixi,∑ixi2)(\sum_i x_i,\sum_i x_i^2)$ ，期望 $μ\mu$ ，方差 $σ2\sigma^2$
- 泊松分布： $p(x∣λ)=λxx!e−λp(x|\lambda)=\frac{\lambda^x}{x!}e^{-\lambda}$
  
  完全统计量： $∑ixi\sum_i x_i$ ，期望 $λ\lambda$ ，方差 $λ\lambda$
- 二项分布： $p(x∣θ)=(nx)θx(1−θ)n−xp(x|\theta)=\binom{n}{x}\theta^x(1-\theta)^{n-x}$
  
  完全统计量： $∑ixi\sum_i x_i$ ，期望 $n p$ ，方差 $n p (1 - p)$
Beta分布： $Beta(α,β):p(θ)=θα−1(1−θ)β−1Γ(α+β)Γ(α)Γ(β),0≤θ≤1Beta(\alpha,\beta): p(\theta)=\theta^{\alpha-1} (1-\theta)^{\beta-1}\frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha)\Gamma(\beta)}, 0\leq \theta\leq 1$ ，期望： $αα+β\frac{\alpha}{\alpha+\beta}$ ，方差： $αβ(α+β)2(α+β+1)\frac{\alpha\beta}{(\alpha+\beta)^2(\alpha+\beta+1)}$
Gamma分布： $Γ(r,λ)=λrΓ(λ)xr−1e−λx,x≥0\Gamma(r,\lambda)=\frac{\lambda^r}{\Gamma(\lambda)}x^{r-1}e^{-\lambda x},x\geq 0$ ， $E=rλ−1,V=rλ−2E=r\lambda^{-1},V=r\lambda^{-2}$
卡方分布： $=Γ(n2,12)=\Gamma(\frac{n}{2},\frac{1}{2})$ ，即n个iid的标准正态分布的平方和
学生t分布： $X1,...,Xn∼N(μ,σ2)X_1,...,X_n\sim N(\mu,\sigma^2)$ ，则 $X‾−μσ/n∼N(0,1)\frac{\overline{X}-\mu}{\sigma/\sqrt{n}}\sim N(0,1)$ ，但是 $X‾−μS/n∼tn−1\frac{\overline{X}-\mu}{S/\sqrt{n}}\sim t_{n-1}$
F分布：对于两个自由度为 $d_1,d_2$ 的卡方分布 $U_1,U_2$ ， $F(d1,d2)∼U1/d1U2/d2F(d_1,d_2)\sim \frac{U_1/d_1}{U_2/d_2}$
多元正态分布： $fx(x1,…,xk)=1(2π)k∣Σ∣e−12(x−μ)TΣ−1(x−μ)f_{\mathbf{x}}\left(x_1, \ldots, x_k\right)=\frac{1}{\sqrt{(2 \pi)^k|\boldsymbol{\Sigma}|}} \mathrm{e}^{-\frac{1}{2}(\mathbf{x}-\boldsymbol{\mu})^{\mathrm{T}} \boldsymbol{\Sigma}^{-1}(\mathbf{x}-\boldsymbol{\mu})}$

常用概念：

大数定律： $X‾→a.s.EX\overline{X}\stackrel{a.s.}\rightarrow EX$ 中心极限定理： $X‾→dN(EX,Var(X)n)\overline{X}\stackrel{d}{\rightarrow} N(EX,\frac{Var(X)}{n})$
随机变量的函数： $∃x,s.t.y=g(x)0∀x,y≠g(x)f_Y(y)= \begin{cases}f_X\left[g^{-1}(y)\right]\left|\frac{\mathrm{d}}{\mathrm{d} y} g^{-1}(y)\right| & \text { if } \exists x, s . t . y=g(x) \\ 0 & \forall x, y \neq g(x)\end{cases}$
随机向量的函数：

和的分布：卷积： $q(y)=∫p1(u)p2(y−u)duq(y)=\int p_1(u)p_2(y-u)du$

顺序统计量的分布： $P{ξn∗<x}=[F(x)]nP\{\xi_n^*<x\}=[F(x)]^n$ ， $ξ1,ξn\xi_1,\xi_n$ 的联合密度 $q(x,y)={0x≥yn(n−1)[F(y)−F(x)]n−2p(x)p(y)elseq(x,y)=\left\{\begin{aligned} 0 \quad x\geq y\\ n(n-1)[F(y)-F(x)]^{n-2}p(x)p(y) \quad else\end{aligned}\right.$
$E (a X) = a E (X)$ , $Var(aX)=a^2 Var(X)$