一些做法:
将样本分为两类,50样本,5000predictors,找到100个predictors和Y相关性最大的变量。然后用CV的方法预测一个logistic模型。
问题:会存在Spurious Correlation。第一轮选的变量可能和Y是伪相关的,但是在第二轮肯定会有更高的预测率。
population -> data -> estimation -> sampling distribution -> test/CI/PI
bootstrap:把data当作分布,一次一次从里面抽,得到一个empirical distribution
pearson correlation:样本空间上T(x1-mean(x),x2-mean(x),…,xn-mean(x))和T(Y1-mean(Y),Y2-mean(Y),…,Yn-mean(Y))的夹角余弦
inference的目的:
估计是用当前数据来估的
hierarchy principal
异方差解决办法:取对数
x不奇怪 y奇怪:outline
x奇怪:high leverage 影响更大
用leverage statistics评估
X具有相关性:corraletion matrix
R square很大 但是许多系数很低就可能有
VIF-variance inflation factor
线性函数加一个分布函数 肯定在【0,1】之间
probit:正态分布
logistic:logistic分布
dummy variable:model.matrix
X无相关性 可否一个一个检测:不可以
type 1 error:α\alphaα
每一个变量的error是α\alphaα,那么整个的type 1 error是1−(1−α)P1-(1-\alpha)^P1−(1−α)P
另外可能每一个影响都很小,但是叠加的影响可能很大、
multivariate test is more powerful than separately univariate test
multivariate test mu on μ\muμ with Σ\SigmaΣ know ~多元正态分布
KaTeX parse error: Can't use function '\~' in math mode at position 44: …bar y - \mu ) \̲~̲ N_P(0,I_p)
KaTeX parse error: Can't use function '\~' in math mode at position 5: z_i \̲~̲ N(0,1)
KaTeX parse error: Can't use function '\~' in math mode at position 12: \sum z_j^2 \̲~̲ X^2(P)
KaTeX parse error: Can't use function '\~' in math mode at position 57: …(\bar y - \mu) \̲~̲ X^2(P)
拒绝域:Z>Xσ2(P)Z>X^2_\sigma (P)Z>Xσ2(P)
p比较小的时候,减小α\alphaα 也阔以
考虑椭圆方框强调内容,相关性越高,椭圆越扁,单变量检验error的可能性越高
multivariate test mu on μ\muμ with Σ\SigmaΣ unknow :hotelling’s T2T^2T2(n>p)
KaTeX parse error: Can't use function '\~' in math mode at position 49: …(\bar y-\mu_0) \̲~̲ T^2
n−pp(n−1)T2(p,n−1)=F(p,n−p)\frac{n-p}{p(n-1)} T^2(p,n-1) = F(p,n-p)p(n−1)n−pT2(p,n−1)=F(p,n−p)
R2R^2R2解释了X能在多大程度上解释Y
越接近1越好
logistic regression
p(x)=eβ0+β1x1+eβ0+β1xp(x)=\frac{e^{\beta_0+\beta_1x}}{1+e^{\beta_0+\beta_1x}}p(x)=1+eβ0+β1xeβ0+β1x
log(p(x)1+p(x))=β0+β1xlog(\frac{p(x)}{1+p(x)}) = \beta_0+\beta_1xlog(1+p(x)p(x))=β0+β1x
优化:MLE
L(β0,β1)=∏ip(xi)y1(1−p(xi))1−yiL(\beta_0,\beta_1)=\prod_i p(x_i)^{y_1}(1-p(x_i))^{1-y_i}L(β0,β1)=i∏p(xi)y1(1−p(xi))1−yi
带入p(x)取对数。
l(β)=∑iyiβTxi−log(1+eβTxi)l(\beta)= \sum_i y_i\beta^Tx_i - log(1+e^{\beta^Tx_i})l(β)=i∑yiβTxi−log(1+eβTxi)
FOC:
∂l(β)∂β=∑ixi(yi−p(xi,β))\frac{\partial l(\beta)}{\partial \beta} = \sum_i x_i(y_i-p(x_i,\beta))∂β∂l(β)=i∑