Binary Classification的另两种models

本文介绍了除了常用逻辑回归之外的二元分类方法——Probit回归和Complimentary log-log模型。对于单变量问题,这三种模型表现相似,但在多变量情况下通常选择逻辑回归。通过心脏病例子,解释了这些模型如何处理误差分布的假设,并展示了它们在概率计算上的差异。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Why

除了常用的logistic 模型做$Y = \{0, 1\}$的预测外, 还有Probit Regression 和Complimentary log-log 两种方法. Logistic 和probit 输出结果相似. 对于单变量, 没有证据表明哪种表现最突出. 但多变量时一般采用logistic.

考虑上篇的心脏病例子. $Y = 1$表有病, $Y = 0$没病. 现实中有病没病是通过测量体内参数算出来的, 所以设存在连续值$Y^c$表人体内化学平衡. 当$Y^c < y^* \Rightarrow Y = 1, y^*$是健康阀值.

我们假设$Y^c$和年龄$X$存在线性关系: $Y^c = \beta_0^c + \beta_1^c X + \epsilon.$ 所以$\pi = P(Y = 1| X; \beta) = P(Y^c \leq y^*) = P(\beta_0^c + \beta_1^c X + \epsilon \leq y^* ) = P( \epsilon \leq y^* - \beta_0^c - \beta_1^c X ). $

无论是logistic, probit 还是log-log, 它们的区别集中在$\epsilon$上: 不同的model对误差分布有不同假设.
$\epsilon_i \sim iid.$

Logistic Model

随机变量$Z$它的pdf是$f(z) = e^z/(1 + e^z)^2$, cdf是$F(z) = e^z/(1 + e^z)$是称$Z$满足标准logisitc分布. Logistic 分布pdf 以0为中心呈钟型, cdf呈S型.设$\epsilon = \sigma Z$, $\sigma > 0$是scale参数, 我们可以得到$\pi = P( \epsilon \leq y^* - \beta_0^c - \bet

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值