数理统计期末复习笔记(二)

本文是数理统计的期末复习笔记,重点涵盖了贝叶斯方法、统计决策、偏差分析和线性回归。介绍了贝叶斯估计、决策规则、ANOVA分析和线性回归模型,包括简单和多元线性回归的细节,如残差分析和模型检验。

数理统计期末复习笔记

主要内容:
贝叶斯估计,统计决策,偏差分析,线性回归

贝叶斯方法

基本概念
  • 贝叶斯派的观点认为,概率就是信念

  • 贝叶斯推断:θ\thetaθ:作为随机变量,X1,...,Xn∼p(x∣θ)X_1,...,X_n\sim p(x|\theta)X1,...,Xnp(xθ),后验∼\sim先验*似然,即p(θ∣x1,...,xn)∼p(θ)×p(x1,...,xn∣θ)p(\theta|x_1,...,x_n)\sim p(\theta)\times p(x_1,...,x_n|\theta)p(θx1,...,xn)p(θ)×p(x1,...,xnθ)

    θ\thetaθ的贝叶斯估计:θ^=E(θ∣x)\hat{\theta}=E(\theta|x)θ^=E(θx)

  • 先验的构造:

    • 平坦先验:均匀分布,密度函数为常数;但是对于数据变换并不是不变的
    • Jeffery先验:先验对于fisher信息变换必须不变,即πJ(θ)=(det(In(θ)))1/2\pi_J(\theta)=(det(I_n(\theta)))^{1/2}πJ(θ)=(det(In(θ)))1/2,这里I_n是用样本的似然p(x∣θ)p(x|\theta)p(xθ)求的;但是只有一维的时候比较高效
    • Reference先验:希望从先验中汲取到的信息最少:p(θ)=argmax⁡θdKL(p(θ),p(θ∣x))p(\theta)=\operatorname{argmax}_\theta d_{KL}(p(\theta),p(\theta|x))p(θ)=argmaxθdKL(p(θ),p(θx)), dKL(P∥Q)=∫−∞∞p(x)ln⁡p(x)q(x)dxd_{\mathrm{KL}}(P \| Q)=\int_{-\infty}^{\infty} p(x) \ln \frac{p(x)}{q(x)} \mathrm{d} xdKL(PQ)=p(x)lnq(x)p(x)dx;在一维下,Jeffery先验和reference先验相等
    • conjugate先验:选择先验使得和后验的分布一样;即寻找共轭组FFF使得先验和后验均在其中
  • 贝叶斯置信区间:

    P(θ∈[L(U),C(U)]∣X)=1−αP(\theta\in [L(U),C(U)]|X)=1-\alphaP(θ[L(U),C(U)]X)=1α

  • 贝叶斯检验:

    贝叶斯检验同样建立在后验上。在检验中,比较P(θ∈Θ0∣x)P(\theta\in\Theta_0|x)P(θΘ0x)P(θ∈Θ1∣x)P(\theta\in\Theta_1|x)P(θΘ1x),哪个大就推断θ\thetaθ满足哪个。(设定域的自由度降低了不少)

统计决策

基本概念
  • 决策规则:XXX为分布PPP中随机产生的若干样本 根据XXX来决定若干行动,称为决策:D:(X,FX)→(A,FA)D:(X,F_X)\rightarrow (A,F_A)D:(X,FX)(A,FA), FFFσ\sigmaσ-域

    决策的估值:loss functionL(θ,a)L(\theta,a)L(θ,a):在情况θ\thetaθ下选择行动a的代价

    eg:平方损失函数,p-范数,0-1损失函数等

  • 有些决策具有随机性,需要引入风险函数:R(θ,a)=EθL(θ,a)R(\theta,a)=E_\theta L(\theta,a)R(θ,a)=EθL(θ,a)(这里是指对p(X∣θ)p(X|\theta)p(Xθ)求期望,因为aaa是根据XXX决定的)

    对于决策规则A,BA,BA,B,如果对任意θ\thetaθ,A的选择的风险都不比B大,则称A至少和B一样好(互相=>等价)

    对于一族决策规则T\mathcal{T}T,决策规则T∗T^*T称为T\mathcal{T}T-最优的,如果它和任何其他决策都至少一样好

    对于一组决策规则T\mathcal{T}T,决策规则TTT称为T\mathcal{T}T-可采纳的(admissible),如果没有决策和它至少一样好

  • Rao-blackwell定理:对于一个非随机策略T0T_0T0和凸的损失函数,考虑HHH为一个充分统计量,那么T1=E(T0(x)∣H)T_1=E(T_0(x)|H)T1=E(T0(x)H)一定至少和它一样好;因此只需要考虑仅和充分统计量有关的规则即可

对决策规则的进一步提升
  • 最大最小风险

    最大最小估计:Rn≜inf⁡θ^∈Tsup⁡θR(θ,θ^)R_n\triangleq \inf_{\hat{\theta}\in T} \sup_{\theta}R(\theta,\hat{\theta})Rninfθ^TsupθR(θ,θ^)

    即:在一族规则中,选择最大风险最小的那个

  • 贝叶斯风险

    考虑先验π\piπ下贝叶斯风险为:Bπ(θ^)=∫R(θ,θ^)π(θ)dθB_\pi (\hat{\theta})=\int R(\theta,\hat{\theta})\pi(\theta)d\thetaBπ(θ^)=R(θ,θ^)π(θ)dθ,故贝叶斯估计:inf⁡θ^∈TBπ(θ^)\inf_{\hat{\theta}\in T} B_\pi(\hat{\theta})infθ^TBπ(θ^)

    贝叶斯检验的性质:π\piπ为先验=>后验分布:π(θ∣x)∼p(x∣θ)π(θ)\pi(\theta|x)\sim p(x|\theta)\pi(\theta)π(θx)p(xθ)π(θ)

    后验风险:考虑r(θ^∣x)=∫L(θ,θ^)π(θ∣x)dθr(\hat{\theta}|x)=\int L(\theta,\hat{\theta})\pi(\theta|x)d\thetar(θ^x)=L(θ,θ^)π(θx)dθ

    定理:θ^(x)=argmin⁡θr(θ^∣x)\hat{\theta}(x)=\operatorname{argmin}_\theta r(\hat{\theta}|x)θ^(x)=argminθr(θ^x)

    示例:L=(θ−θ^)2L=(\theta-\hat{\theta})^2L=(θθ^)2θ^\hat{\theta}θ^=π(θ∣x)\pi(\theta|x)π(θx)的期望;L=∣θ−θ^∣L=|\theta-\hat{\theta}|L=θθ^:中位数;L=0−1L=0-1L=01:单峰

  • 关联:拥有常数的风险函数的贝叶斯估计必然是最大最小估计

    应用:证明某个策略是最大最小估计:构造恰当的先验给出一个常数风险的贝叶斯估计

    注:最大似然估计MLE 渐近地是最大最小估计

偏差分析Analysis of Variance

  • 对三组及以上的人群做偏差分析,对其差别做推断
单路ANOV(数据按照某个值分类)
  • 模型:Yij=θi+ϵij,i=1∼I,j=1∼niY_{ij}=\theta_i+\epsilon_{ij},i=1\sim I,j=1\sim n_iYij=θi+ϵij,i=1I,j=1ni,其中E(ϵij)=0,Var(ϵij)=σi2E(\epsilon_{ij})=0,Var(\epsilon_{ij})=\sigma_i^2E(ϵij)=0,Var(ϵij)=σi2

    替代模型:Yij=μ+γi+ϵijY_{ij}=\mu+\gamma_i+\epsilon_{ij}Yij=μ+γi+ϵij,但是不是可确定(identifiable)模型,因为参数值和分布并不一一对应

    其它假设:

    • 方差齐性(homoscedasticity),即σi2=σ2\sigma_i^2=\sigma^2σi2=σ2,否则不好估计(如果无法满足,考虑使用box-cox变换:取(yλ−1)/λ(y^\lambda-1)/\lambda(yλ1)/λ
    • 正态性:ϵij∼N(0,σ2)\epsilon_{ij}\sim N(0,\sigma^2)ϵijN(0,σ2)
  • ANOVA检验:

    希望检验:H0:θ1=....=θIH_0:\theta_1=....=\theta_IH0:θ1=....=θI

    SSTOT=∑i∑j(Yij−Y‾)2=∑i∑j(Yij−Y‾i⋅)2+∑ini(Y‾i⋅−Y‾⋅⋅)2=SSW+SSBSS_{TOT}=\sum_{i}\sum_{j} (Y_{ij}-\overline{Y})^2=\sum_i\sum_j (Y_{ij}-\overline{Y}_{i\cdot})^2+\sum_i n_i(\overline{Y}_{i\cdot}-\overline{Y}_{\cdot\cdot})^2=SS_W+SS_BSSTOT=ij(YijY)2=ij(YijYi)2+ini(YiY⋅⋅)2=SSW+SSB(w: within group, b: between group)

    推论:在方差齐性假设下:E(SSW)=∑i(ni−1)σ2,E(SSB)=∑ini(θi−θ‾)2+(I−1)σ2E(SS_W)=\sum_i (n_i-1)\sigma^2, E(SS_B)=\sum_i n_i(\theta_i-\overline{\theta})^2+(I-1)\sigma^2E(SSW)=i(ni1)σ2,E(SSB)=ini(θiθ)2+(I1)σ2

    一个很常用的引理E(Xi)=μi,Var(Xi)=σ2E(X_i)=\mu_i, Var(X_i)=\sigma^2E(Xi)=μi,Var(Xi)=σ2,则E(Xi−X‾)2=(μi−μ‾)2+n−1nσ2E(X_i-\overline{X})^2=(\mu_i-\overline{\mu})^2+\frac{n-1}{n} \sigma^2E(XiX)2=(μiμ)2+nn1σ2

    因此:E(SSB)≥(I−1)σ2E(SS_B)\geq (I-1)\sigma^2E(SSB)(I1)σ2当且仅当零假设成立时取等

    推论:在方差齐性+正态+分组数量相同假设下:SSW/σ2∼χI(J−1)2,SSB/σ2∼χI−12SS_W/\sigma^2\sim \chi^2_{I(J-1)}, SS_B/\sigma^2\sim \chi^2_{I-1}SSW/σ2χI(J1)2,SSB/σ2χI12

    因此,我们得到一个F统计量:F=SSB/(I−1)SSW/(J−1)IF=\frac{SS_B/(I-1)}{SS_W/(J-1)I}F=SSW/(J1)ISSB/(I1),在零假设下满足F分布,因此可以利用似然比方法构造测试

    另一种ANOVA:Ta=∣∑i=1aiYˉi.−∑i=1aiθiSp2∑i=1kai2/ni∣T_a=\left|\frac{\sum_{i=1} a_i \bar{Y}_{i .}-\sum_{i=1} a_i \theta_i}{\sqrt{S_p^2 \sum_{i=1}^k a_i^2 / n_i}}\right|Ta=Sp2i=1kai2/nii=1aiYˉi.i=1aiθiTa>kT_a>kTa>k则拒绝(?)

  • ANOVA表格:计算ANOVA的标准方式

    方差来源自由度SS(方差和)MS(平均方差)F统计量
    组间k-1∑ini(Y‾i⋅−Y‾⋅⋅)2\sum_i n_i(\overline{Y}_{i\cdot}-\overline{Y}_{\cdot\cdot})^2ini(YiY⋅⋅)2SSB/(k-1)MSB/MSW
    组内N-k∑i∑j(Yij−Y‾i⋅)2\sum_i\sum_j (Y_{ij}-\overline{Y}_{i\cdot})^2ij(YijYi)2SSW/(N-k)
    总计N-1∑i∑j(Yij−Y‾)2\sum_{i}\sum_{j} (Y_{ij}-\overline{Y})^2ij(YijY)2
  • Kruskal-Wallis检验(非参数方法)

    如果数据并不满足正态分布,如何检验H0:H_0:H0:所有组的分布都相同?

    考虑将所有数据直接重新按照从小到大排列,记数据YijY_{ij}Yij在其中的顺序为RijR_{ij}Rij,则SSB=∑ini(R‾i⋅−R‾⋅⋅)2SS_B=\sum_i n_i (\overline{R}_{i\cdot} -\overline{R}_{\cdot\cdot})^2SSB=ini(RiR⋅⋅)2,其为RRR的分散程度的度量。SSB越大,则说明零假设越可能不成立。可以证明,在零假设下,K=12N(N+1)SSB∼χI−12K=\frac{12}{N(N+1)} SS_B\sim \chi^2_{I-1}K=N(N+1)12SSBχI12,并且P(χI−12>K)P(\chi^2_{I-1}>K)P(χI12>K)即为一个K值

线性回归

线性回归是最早提出的统计方法之一,在AI,ML中均有广泛的使用

简单线性回归:
  • 模型:使用样本X,YX,YX,Y预测Y=β0+β1XY=\beta_0+\beta_1XY=β0+β1X

    Sxx=∑i(xi−x‾)2S_{xx}=\sum_i (x_i-\overline{x})^2Sxx=i(xix)2Syy=∑i(yi−y‾)2S_{yy}=\sum_i (y_i-\overline{y})^2Syy=i(yiy)2Sxy=∑i(xi−x‾)(yi−y‾)S_{xy}=\sum_i (x_i-\overline{x})(y_i-\overline{y})Sxy=i(xix)(yiy)

    残差:ei=yi−y^ie_i=y_i-\hat{y}_iei=yiy^i,其中yi^=β0+β1xi\hat{y_i}=\beta_0+\beta_1x_iyi^=β0+β1xi为预测值

    β0,β1\beta_0,\beta_1β0,β1最小化残差平方和:RSS=∑iei2RSS=\sum_i e_i^2RSS=iei2,可以解得β^1=SxySxx\hat{\beta}_1=\frac{S_{xy}}{S_{xx}}β^1=SxxSxyβ0^=y‾−β1^x‾\hat{\beta_0}=\overline{y}-\hat{\beta_1}\overline{x}β0^=yβ1^x,称为BLUE(best linear unbiased estimator)

    同理,如果假设x=β~0+β~1y{x}=\tilde{\beta}_0+\tilde{\beta}_1yx=β~0+β~1y,则可以解得β~1=SxySyy\tilde{\beta}_1=\frac{S_{xy}}{S_{yy}}β~1=SyySxyβ0~=x‾−β1~y‾\tilde{\beta_0}=\overline{x}-\tilde{\beta_1}\overline{y}β0~=xβ1~y

  • 模型:假设样本满足分布:Y=β0+β1X+ϵi,ϵi∼N(0,σ2)Y=\beta_0+\beta_1X+\epsilon_i,\epsilon_i\sim N(0,\sigma^2)Y=β0+β1X+ϵi,ϵiN(0,σ2)

    其MLE恰好就是LSE

    在这个模型下的计算往往将X_i看做常数,采用对变量Y_i的分解计算,因为Y_i的基本信息是清楚的,而且互相独立

    E(RSS)=(n−2)σ2E(RSS)=({n-2})\sigma^2E(RSS)=(n2)σ2,故S2=RSSn−2S^2=\frac{RSS}{n-2}S2=n2RSSσ2\sigma^2σ2的无偏估计,β^0∼N(β0,σ2nSxx∑ixi2)\hat{\beta}_0\sim N(\beta_0,\frac{\sigma^2}{nS_{xx}} \sum_i x_i^2)β^0N(β0,nSxxσ2ixi2)β^1∼N(β1,σ2Sxx)\hat{\beta}_1\sim N(\beta_1,\frac{\sigma^2}{S_{xx}})β^1N(β1,Sxxσ2)Cov⁡(β^0,β^1)=−σ2xˉSxx\operatorname{Cov}\left(\widehat{\beta}_0, \widehat{\beta}_1\right)=-\frac{\sigma^2 \bar{x}}{S_{x x}}Cov(β0,β1)=Sxxσ2xˉS2S^2S2β^0,β^1\hat{\beta}_0,\hat{\beta}_1β^0,β^1独立,有(n−2)S2σ2∼χn−22\frac{(n-2) S^2}{\sigma^2} \sim \chi_{n-2}^2σ2(n2)S2χn22

    如果需要检验β1\beta_1β1是否为0,则β^1\hat{\beta}_1β^1的分布可以帮助构造一个估计:t=β^1S2/Sxx∼tn−2t=\frac{\widehat{\beta}_1}{S^2/S_{xx}}\sim t_{n-2}t=S2/Sxxβ1tn2,t为学生t分布

  • 模型的准确性检验:

    为了检验线性回归到底能否准确表现原问题的结果,一般使用两个统计量

    • RSE:=RSSn−2:=\sqrt{\frac{RSS}{n-2}}:=n2RSS(residual standard error)

    • R2R^2R2:注意到∑i=1n(yi−yˉ)2=SST=SSR+SSE=∑i=1n(y^i−yˉ)2+∑i=1n(yi−y^i)2\sum_{i=1}^n\left({y}_i-\bar{y}\right)^2=SST=SSR+SSE=\sum_{i=1}^n\left(\hat{y}_i-\bar{y}\right)^2+\sum_{i=1}^n\left(y_i-\hat{y}_i\right)^2i=1n(yiyˉ)2=SST=SSR+SSE=i=1n(y^iyˉ)2+i=1n(yiy^i)2,注意:这里的SSE=RSSSSE=RSSSSE=RSS

      因此,R2=SSrSST=∑i(yi^−y‾)2∑i(yi−y‾)2R^2=\frac{SSr}{SST}=\frac{\sum_i (\hat{y_i}-\overline{y})^2}{\sum_i ({y_i}-\overline{y})^2}R2=SSTSSr=i(yiy)2i(yi^y)2,所以,R2R^2R2越接近1,SST中可以被回归模型解释的部分就越多。

      注:可以证明:R2=Sxy2SxxSyyR^2=\frac{S_{xy}^2}{S_{xx}S_{yy}}R2=SxxSyySxy2

  • 模型的预测:

    对于任意xxx,模型的预测值β^0+β^1x0∼N(β0+β1x0,σ2(1n+(x0−x‾)2Sxx))\hat{\beta}_0+\hat{\beta}_1x_0\sim N(\beta_0+\beta_1x_0,\sigma^2(\frac{1}{n}+\frac{ (x_0-\overline{x})^2}{S_{xx}}))β^0+β^1x0N(β0+β1x0,σ2(n1+Sxx(x0x)2)). 考虑到S2=RSS/(n−2)S^2=RSS/(n-2)S2=RSS/(n2)σ2\sigma^2σ2的无偏估计,并且(n−2)S2σ2∼χn−22\frac{(n-2) S^2}{\sigma^2} \sim \chi_{n-2}^2σ2(n2)S2χn22,因此β^0+β^1x0−(β0+β1x0)S1n+(x0−xˉ)2Sxx∼tn−2\frac{\widehat{\beta}_0+\widehat{\beta}_1 x_0-\left(\beta_0+\beta_1 x_0\right)}{S \sqrt{\frac{1}{n}+\frac{\left(x_0-\bar{x}\right)^2}{S_{x x}}}} \sim t_{n-2}Sn1+Sxx(x0xˉ)2β0+β1x0(β0+β1x0)tn2

    因此,对于要预测的β0+β1x0\beta_0+\beta_1x_0β0+β1x0,一个1−α1-\alpha1α的置信区间为β^0+β^1x0±tn−2,1−α/2S1n+(x0−xˉ)2Sxx\widehat{\beta}_0+\widehat{\beta}_1 x_0\pm t_{n-2,1-\alpha / 2} S \sqrt{\frac{1}{n}+\frac{\left(x_0-\bar{x}\right)^2}{S_{x x}}}β0+β1x0±tn2,1α/2Sn1+Sxx(x0xˉ)2

    同理,如果要对一群样本做confidence interval,将1−α/2→1−(α/2m)1-\alpha/2\rightarrow 1-(\alpha/2m)1α/21(α/2m)即可

    该方法可以推广出更加一般的统计量:P(max⁡t((Yˉ−μYˉ)+(β^1−β1)t)2S2(1n+t2Sx)≤Mα2)=1−αP\left(\max _t \frac{\left(\left(\bar{Y}-\mu_{\bar{Y}}\right)+\left(\widehat{\beta}_1-\beta_1\right) t\right)^2}{S^2\left(\frac{1}{n}+\frac{t^2}{S_{\mathrm{x}}}\right)} \leq M_\alpha^2\right)=1-\alphaPtmaxS2(n1+Sxt2)((YˉμYˉ)+(β1β1)t)2Mα2=1α, Mα=2F2,n−2,1−αM_\alpha=\sqrt{2F_{2,n-2,1-\alpha}}Mα=2F2,n2,1α

多元线性回归
  • p个观测值:yi=β0+β1Xi1+...+βpXip+ϵiy_i=\beta_0+\beta_1 X_{i1}+...+\beta_p X_{ip}+\epsilon_iyi=β0+β1Xi1+...+βpXip+ϵi,即:Y=Xβ+ϵY=X\beta+\epsilonY=+ϵ,其中X=(1,xij)X=(1,x_{ij})X=(1,xij)

    RSS(β)=(y−Xβ)T(y−Xβ)RSS(\beta)=(y-X\beta)^T(y-X\beta)RSS(β)=(y)T(y),从而β^=(XTX)−1XTy\hat{\beta}=(X^T X)^{-1}X^T yβ^=(XTX)1XTy,如果不满秩则取广义逆

    E(XTAX)=Tr(AΣ)+μTAμ,Cov(β^)=σ2(XTX)−1E(X^T AX)=Tr(A\Sigma)+\mu^T A\mu, Cov(\hat{\beta})=\sigma^2 (X^T X)^{-1}E(XTAX)=Tr(AΣ)+μTAμ,Cov(β^)=σ2(XTX)1

    残差向量:e^=(I−H)Y\widehat{e}=(I-H) Ye=(IH)Y, H=X(XTX)−1XTH=X(X^T X)^{-1}X^TH=X(XTX)1XT为Y到spanXspan{X}spanX上的投影算子

    E(RSS)=E(e^Te^)=E(YT(I−H)Y)=(E(Y))T(I−H)E(Y)+σ2(n−p)E(RSS)=E(\hat{e}^T\hat{e})=E(Y^T (I-H)Y)=(E(Y))^T\left(I-H\right) E(Y)+\sigma^2 (n-p)E(RSS)=E(e^Te^)=E(YT(IH)Y)=(E(Y))T(IH)E(Y)+σ2(np)

    预测值:y^=Xβ^=Hy\hat{y}=X\hat{\beta}=Hyy^=Xβ^=Hy;即使XTXX^TXXTX奇异,预测出来的值依然是一样的

    检验:β1=...=βp=0\beta_1=...=\beta_p=0β1=...=βp=0(这里不管β0\beta_0β0),则一个F测试为:(TSS−RSS)/pRSS/(n−p−1)\frac{(T S S-R S S) / p}{R S S /(n-p-1)}RSS/(np1)(TSSRSS)/pFFF接近1时为H0H_0H0,否则为H1H_1H1

    检验:βp−q+1=...=βp=0\beta_{p-q+1}=...=\beta_{p}=0βpq+1=...=βp=0,则一个F测试为:(RSS0−RSS)/qRSS/(n−p−1)\frac{(RSS_0-R S S) / q}{R S S /(n-p-1)}RSS/(np1)(RSS0RSS)/q,其中RSS0RSS_0RSS0为不用后q个变量做回归后的RSS

线性回归的常见问题
  • ϵi\epsilon_iϵi之间并不无关

    检测: 绘制纵轴eie_iei横轴y^i\hat{y}_iy^i的散点图并观察图式是否随机

    解决:

  • 数据的真实关系并非线性

    检测: 绘制纵轴eie_iei横轴y^i\hat{y}_iy^i的散点图并观察期望是否接近0

  • Var(ϵi)≠σ2Var(\epsilon_i)\neq \sigma^2Var(ϵi)=σ2

    检测:绘制纵轴eie_iei横轴y^i\hat{y}_iy^i的散点图并观察与0的距离是否均匀

    解决:y→log⁡yy\rightarrow \log yylogy

  • 异常数据

    检测:对数据做studentize:leverage:hiih_{ii}hii为投影矩阵H的对角线上第i个元素。注意:HTH=HH^T H=HHTH=H,从而hii=∑jhij2=1n+(xi−x‾)2∑j(xj−x‾)2h_{ii}=\sum_j h_{ij}^2=\frac{1}{n}+\frac{(x_i-\overline{x})^2}{\sum_j (x_j-\overline{x})^2}hii=jhij2=n1+j(xjx)2(xix)2,再定义ti=ϵi^σ^1−hiit_i=\frac{\hat{\epsilon_i}}{\hat{\sigma}\sqrt{1-h_{ii}}}ti=σ^1hiiϵi^,其中σ^2=∑jϵj2^n\hat{\sigma}^2=\frac{\sum_j \hat{\epsilon_j^2}}{n}σ^2=njϵj2^,绘制(hii,ti)(h_{ii},t_{i})(hii,ti)的散点图即可找到异常

  • 同线性(不同的X值(predictor)之间可能相关)

    检测:VIF(variance influence factor)

    VIFk=11−Rk2VIF_k=\frac{1}{1-R_k^2}VIFk=1Rk21,其中Rk2R_k^2Rk2为用其它所有变量对xkx_kxk做回归得到的回归的R值,如果趋近于1则可认为独立,如果大于5左右则有关

    解决:丢掉一个相关度过高的变量/合并两个相关变量

  • y不连续

    此时不能做线性回归,因为可解释性太差

    • 逻辑思谛回归:(y二值)

      logit(p(X))=β0+β1Xlogit(p(X))=\beta_0+\beta_1Xlogit(p(X))=β0+β1X做线性回归,用MLE求解方程;预测xxx的概率:p^(Y=1∣x)=eβ0^+β1^x1+eβ0^+β1^x\hat{p}(Y=1|x)=\frac{e^{\hat{\beta_0}+\hat{\beta_1}x}}{1+e^{\hat{\beta_0}+\hat{\beta_1}x}}p^(Y=1∣x)=1+eβ0^+β1^xeβ0^+β1^x

    • 线性分辨

      先估计P(X=k∣Y=j)P(X=k|Y=j)P(X=kY=j),再用贝叶斯法则计算P(Y=j∣X=k)P(Y=j|X=k)P(Y=jX=k),贝叶斯分类器:输出k=argmax⁡jP(Y=j∣X=k)k=\operatorname{argmax}_j P(Y=j|X=k)k=argmaxjP(Y=jX=k), 如果已知模型,则可以考虑使用MLE来估算

      混淆矩阵:列出预测和真实的正确对应关系(类似假设检验)=>specificity:对的预测对的比例;sensitivity:错的预测错的比例。两个都是越高越好,但是很难同时高;但是在二元情形可以通过修改判断为对的阈值来计算

    • KNN(k-近邻)

      直接观察一个点的最近的k个邻居的频率,然后模仿最高的频率;距离度量:Mink距离,cosine距离等等

      优势:容易执行,超参数少

      缺点:过拟合,维度灾难,对内容占用巨大

常用分布:

  • 指数组分布

    标准形式:p(x∣θ)=h(x)c(θ)exp⁡{∑j=1kuj(θ)tj(x)}p(x|\theta)=h(x)c(\theta)\exp\{\sum_{j=1}^k u_j(\theta)t_j(x)\}p(xθ)=h(x)c(θ)exp{j=1kuj(θ)tj(x)}

    性质:若Ω=T(x)\Omega=T(x)Ω=T(x)包含一个Rk\mathbb{R}^kRk中的开集,则T(x)=(∑i=1nt1(xi),...,∑i=1ntk(xi))T(x)=(\sum_{i=1}^n t_1(x_i),...,\sum_{i=1}^n t_k(x_i))T(x)=(i=1nt1(xi),...,i=1ntk(xi))是一组完全+充分统计量

    常见的指数组:

    • 指数分布:p(x∣λ)=λe−λxp(x|\lambda)=\lambda e^{-\lambda x}p(xλ)=λeλx,则h(x)=1,c(λ)=λ,u1(λ)=λ,t1(x)=−xh(x)=1,c(\lambda)=\lambda,u_1(\lambda)=\lambda,t_1(x)=-xh(x)=1,c(λ)=λ,u1(λ)=λ,t1(x)=x

      完全统计量:∑ixi\sum_i x_iixi,期望1/λ1/\lambda1/λ,方差1/λ21/\lambda^21/λ2

      n个指数分布的和:Γ(n,λ)\Gamma(n,\lambda)Γ(n,λ)

    • 正态分布:p(x∣σ,μ)=12πσ2e−(x−μ)22σ2p(x|\sigma,\mu)=\frac{1}{\sqrt{2\pi \sigma^2}} e^{-\frac{ (x-\mu)^2}{2\sigma^2}}p(xσ,μ)=2πσ21e2σ2(xμ)2,则h(x)=1/2π,c(σ,μ)=1/σe−μ2/σ2,u1(σ,μ)=1/2σ2,t1(x)=x2,u2(σ,μ)=μ/σ2,t2(x)=xh(x)=1/\sqrt{2\pi},c(\sigma,\mu)=1/\sigma e^{-\mu^2/\sigma^2},u_1(\sigma,\mu)=1/2\sigma^2,t_1(x)=x^2,u_2(\sigma,\mu)=\mu/\sigma^2,t_2(x)=xh(x)=1/2π,c(σ,μ)=1/σeμ2/σ2,u1(σ,μ)=1/2σ2,t1(x)=x2,u2(σ,μ)=μ/σ2,t2(x)=x

      完全统计量:(∑ixi,∑ixi2)(\sum_i x_i,\sum_i x_i^2)(ixi,ixi2),期望μ\muμ,方差σ2\sigma^2σ2

    • 泊松分布:p(x∣λ)=λxx!e−λp(x|\lambda)=\frac{\lambda^x}{x!}e^{-\lambda}p(xλ)=x!λxeλ

      完全统计量:∑ixi\sum_i x_iixi,期望λ\lambdaλ,方差λ\lambdaλ

    • 二项分布:p(x∣θ)=(nx)θx(1−θ)n−xp(x|\theta)=\binom{n}{x}\theta^x(1-\theta)^{n-x}p(xθ)=(xn)θx(1θ)nx

      完全统计量:∑ixi\sum_i x_iixi,期望npnpnp,方差np(1−p)np(1-p)np(1p)

  • Beta分布:Beta(α,β):p(θ)=θα−1(1−θ)β−1Γ(α+β)Γ(α)Γ(β),0≤θ≤1Beta(\alpha,\beta): p(\theta)=\theta^{\alpha-1} (1-\theta)^{\beta-1}\frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha)\Gamma(\beta)}, 0\leq \theta\leq 1Beta(α,β):p(θ)=θα1(1θ)β1Γ(α)Γ(β)Γ(α+β),0θ1,期望:αα+β\frac{\alpha}{\alpha+\beta}α+βα,方差:αβ(α+β)2(α+β+1)\frac{\alpha\beta}{(\alpha+\beta)^2(\alpha+\beta+1)}(α+β)2(α+β+1)αβ

  • Gamma分布:Γ(r,λ)=λrΓ(λ)xr−1e−λx,x≥0\Gamma(r,\lambda)=\frac{\lambda^r}{\Gamma(\lambda)}x^{r-1}e^{-\lambda x},x\geq 0Γ(r,λ)=Γ(λ)λrxr1eλx,x0E=rλ−1,V=rλ−2E=r\lambda^{-1},V=r\lambda^{-2}E=rλ1,V=rλ2

  • 卡方分布:=Γ(n2,12)=\Gamma(\frac{n}{2},\frac{1}{2})=Γ(2n,21),即n个iid的标准正态分布的平方和

  • 学生t分布:X1,...,Xn∼N(μ,σ2)X_1,...,X_n\sim N(\mu,\sigma^2)X1,...,XnN(μ,σ2),则X‾−μσ/n∼N(0,1)\frac{\overline{X}-\mu}{\sigma/\sqrt{n}}\sim N(0,1)σ/nXμN(0,1),但是X‾−μS/n∼tn−1\frac{\overline{X}-\mu}{S/\sqrt{n}}\sim t_{n-1}S/nXμtn1

  • F分布:对于两个自由度为d1,d2d_1,d_2d1,d2的卡方分布U1,U2U_1,U_2U1,U2F(d1,d2)∼U1/d1U2/d2F(d_1,d_2)\sim \frac{U_1/d_1}{U_2/d_2}F(d1,d2)U2/d2U1/d1

  • 多元正态分布:fx(x1,…,xk)=1(2π)k∣Σ∣e−12(x−μ)TΣ−1(x−μ)f_{\mathbf{x}}\left(x_1, \ldots, x_k\right)=\frac{1}{\sqrt{(2 \pi)^k|\boldsymbol{\Sigma}|}} \mathrm{e}^{-\frac{1}{2}(\mathbf{x}-\boldsymbol{\mu})^{\mathrm{T}} \boldsymbol{\Sigma}^{-1}(\mathbf{x}-\boldsymbol{\mu})}fx(x1,,xk)=(2π)kΣ1e21(xμ)TΣ1(xμ)

常用概念:

  • 大数定律:X‾→a.s.EX\overline{X}\stackrel{a.s.}\rightarrow EXXa.s.EX 中心极限定理:X‾→dN(EX,Var(X)n)\overline{X}\stackrel{d}{\rightarrow} N(EX,\frac{Var(X)}{n})XdN(EX,nVar(X))

  • 随机变量的函数:fY(y)={fX[g−1(y)]∣ddyg−1(y)∣ if ∃x,s.t.y=g(x)0∀x,y≠g(x)f_Y(y)= \begin{cases}f_X\left[g^{-1}(y)\right]\left|\frac{\mathrm{d}}{\mathrm{d} y} g^{-1}(y)\right| & \text { if } \exists x, s . t . y=g(x) \\ 0 & \forall x, y \neq g(x)\end{cases}fY(y)={fX[g1(y)]dydg1(y)0 if x,s.t.y=g(x)x,y=g(x)

  • 随机向量的函数:

    和的分布:卷积:q(y)=∫p1(u)p2(y−u)duq(y)=\int p_1(u)p_2(y-u)duq(y)=p1(u)p2(yu)du

    顺序统计量的分布:P{ξn∗<x}=[F(x)]nP\{\xi_n^*<x\}=[F(x)]^nP{ξn<x}=[F(x)]nξ1,ξn\xi_1,\xi_nξ1,ξn的联合密度q(x,y)={0x≥yn(n−1)[F(y)−F(x)]n−2p(x)p(y)elseq(x,y)=\left\{\begin{aligned} 0 \quad x\geq y\\ n(n-1)[F(y)-F(x)]^{n-2}p(x)p(y) \quad else\end{aligned}\right.q(x,y)={0xyn(n1)[F(y)F(x)]n2p(x)p(y)else

  • E(aX)=aE(X)E(aX)=aE(X)E(aX)=aE(X), Var(aX)=a2Var(X)Var(aX)=a^2 Var(X)Var(aX)=a2Var(X)

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值