Why
除了常用的logistic 模型做$Y = \{0, 1\}$的预测外, 还有Probit Regression 和Complimentary log-log 两种方法. Logistic 和probit 输出结果相似. 对于单变量, 没有证据表明哪种表现最突出. 但多变量时一般采用logistic.
考虑上篇的心脏病例子. $Y = 1$表有病, $Y = 0$没病. 现实中有病没病是通过测量体内参数算出来的, 所以设存在连续值$Y^c$表人体内化学平衡. 当$Y^c < y^* \Rightarrow Y = 1, y^*$是健康阀值.
我们假设$Y^c$和年龄$X$存在线性关系: $Y^c = \beta_0^c + \beta_1^c X + \epsilon.$ 所以$\pi = P(Y = 1| X; \beta) = P(Y^c \leq y^*) = P(\beta_0^c + \beta_1^c X + \epsilon \leq y^* ) = P( \epsilon \leq y^* - \beta_0^c - \beta_1^c X ). $
无论是logistic, probit 还是log-log, 它们的区别集中在$\epsilon$上: 不同的model对误差分布有不同假设.
$\epsilon_i \sim iid.$
Logistic Model
随机变量$Z$它的pdf是$f(z) = e^z/(1 + e^z)^2$, cdf是$F(z) = e^z/(1 + e^z)$是称$Z$满足标准logisitc分布. Logistic 分布pdf 以0为中心呈钟型, cdf呈S型.设$\epsilon = \sigma Z$, $\sigma > 0$是scale参数, 我们可以得到$\pi = P( \epsilon \leq y^* - \beta_0^c - \bet