Statistic Learning 2

最新推荐文章于 2024-08-16 09:34:34 发布

原创最新推荐文章于 2024-08-16 09:34:34 发布 · 278 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#统计学习 #Logistic回归 #线性判别分析LDA

统计学习专栏收录该内容

6 篇文章

订阅专栏

本文深入解析Logistic Regression、Linear Discriminant Analysis与K-Nearest Neighbor三种常见分类算法，阐述其原理与应用，对比分析Logistic Regression与Linear Regression的区别，探讨LDA在多分类问题上的优势。

Logistic Regression

三种常用的分类方法

Logistic Regression
Linear Discriminant Analysis
K-NN Negihbor

为什么不用Linear Regression建模分类模型？

若使用Linear Regression来建模

$\beta_0 + \beta_1x$
上述模型存在两个问题
- 概率可能为负
- 概率可能超过1

Logistic Regression建模

$\frac{e^{\beta_0 + \beta_1x}}{1 + e^{\beta_0 + \beta_1x}}$

上述的模型是一根曲线，且范围在 $(0, 1)$
此外，可以得到

$P(x)1−P(x)=eβ0+β1x\frac{P(x)}{1-P(x)} = e^{\beta_0 + \beta_1x}$
由此可以推出

$log(P(x)1−P(x))=β0+β1xlog(\frac{P(x)}{1-P(x)}) = \beta_0 + \beta_1x$
在上面的式子中， $l o g i t$ 关于 $x$ 是线性的；若是 $x$ 增加 $1 - u n i t$ ，那么 $l o g i t$ 平均增加 $β1x\beta_1x$ 。但是 $P (x)$ 和 $x$ 不是线性关系的，若是 $x$ 增加 $1 - u n i t$ ， $P (x)$ 改变的值根据当前值决定。若是忽略 $x$ 的值，只要 $β1\beta_1$ 为正数，那么增加 $x$ 值会增加 $P (x)$ 的概率。

Estimating the Regression Coefficients

可用最大似然的方法估计 $β0,β1\beta_0,\beta_1$ 的值
如何验证相关系数的有效性

$z−statistic=β1SE(β1^)z-statistic = \frac{\beta_1}{SE(\hat{\beta_1})}$

$z - s t a t i s t i c$ 的值越大，说明 $SE(β1^)SE(\hat{\beta_1})$ 的值越小；这将成为拒绝 $H_0$ 的主要原因。

Confounding现象

在估计拖欠率的时候，只有 $s t u d e n t$ 作为 $p r e d i c t o r$ 。此时，若身份是学生，那么拖欠率会降低
但，增加了 $b a l a n c e, i n c o m e$ 这两个 $p r e d i c t o r$ 后，此时若身份是一个学生，那么拖欠率会变高。为什么呢？这是因为 $b a l a n c e$ 和 $s t u d e n t$ 之间存在相关性。 $b a l a n c e$ 越大，会导致身份为 $s t u d e n t$ 的拖欠率会升高。就像 $L i n e a r R e g r e s s i o n$ 中，一旦 $p r e d i c t o r$ 间存在了相关性， $Y$ 的增长不仅会和一个 $p r e d i c t o r$ 增长一个 $1 - u n i t$ 相关。

2. Linear Discriminant Analysis

$L o g i s t i c R e g r e s s i o n$ 建立了 $R e s p o n s e Y$ 的条件分布；而在给定 $p r e d i c t o r$ 的时候， $L D A$ 根据不同的类别，对 $p r e d i c t o r$ 的分布进行建模。

为什么有了Logistic Regression，还需要LDA?

当各类之间的边缘明确时， $L D A$ 比 $L o g i s t i c R e g r e s s i o n$ 更加的稳定
当 $n$ 较小时， $x$ 基本成正态分布，此时 $L D A$ 更为稳定
当分类类别在 $2$ 类之上时， $L D A$ 更加流行。

分类中的贝叶斯理论

定义符号
- $πk\pi_k$ ：随机选中一个样本属于第 $k$ 类别的先验概率
- $fk(x)≡Pr(X=x∣Y=k)f_k(x) \equiv Pr(X=x|Y=k)$ ：类别 $k$ 下样本分布的概率密度函数
贝叶斯理论

$pk(x)=Pr(Y=k∣X=x)=πkfk(x)∑l=1kπlfl(x)p_k(x) = Pr(Y=k|X=x) = \frac{\pi_kf_k(x)}{\sum_{l=1}^k\pi_lf_l(x)}$
- 可用缩写 $p_k(x)$ 代表当 $X = x$ 时， $Y = k$ 的概率
- 根据公式，若要估计 $p_k(x)$ ，可以先估计 $πk,fk(x)\pi_k,f_k(x)$ 再带入贝叶斯公式
- $πk\pi_k$ 比较容易估计，可以通过计算训练集中各类别数据的占比；但 $f_k(x)$ 的计算比较有挑战性。
$p_k(x)$ 被称之为 $X = x$ 属于第 $k$ 个类别的后验概率；如果能找一种方法估计 $p_k(x)$ ，就可以得到一个近似贝叶斯分类器的分类器。

Linear Discriminant Analysis for p=1

假设此时只有一个 $p r e d i c t o r$ ， $p = 1$ ；我们需要获得 $f_k(x)$ 的估计，来计算 $p_k(x)$ 。那么对于一个样本而言， $p_k(x)$ 最大的那个 $k$ 就是它所属的类别。
为了估计 $f_k(x)$ ，需要做一些假设
- 假设 $f_k(x)$ 服从正态分布，一维正太分布的概率密度函数如下：
  
  $fk(x)=12σke−12σk2(x−μk)2f_k(x) = \frac{1}{\sqrt2\sigma_k}e^{-\frac{1}{2\sigma_k^2}(x-\mu_k)^2}$
  
  其中， $μk,σk\mu_k,\sigma_k$ 是第 $k$ 个类别的均值和方差
- 此外，假设所有 $k$ 个类别共享相同的方差，统称为 $σ2\sigma^2$
将 $f_k(x)$ 代入 $p_k(x)$ 中，得到如下式子：

$公式(1)p_k(x) = \frac{\pi_k\frac{1}{\sqrt2\sigma_k}e^{-\frac{1}{2\sigma_k^2}(x-\mu_k)^2}}{\sum_{l=1}^k\pi_l\frac{1}{\sqrt2\sigma_l}e^{-\frac{1}{2\sigma_l^2}(x-\mu_l)^2}} ~~~~~~~~ 公式(1)$

其中， $πk\pi_k$ 声明了一个样本属于第 $k$ 个类别的先验概率
若是对 $公式 (1)$ 取 $l o g ()$ ，可以得到以下式子：

$公式(2)\delta_k(x) = x\frac{\mu_k}{\sigma^2} - \frac{\mu_k^2}{2\sigma^2} + log(\pi_k) ~~~~~~~~ 公式(2)$
对于公式 $2$ ，当 $\pi_1=\pi_2$ 时，计算如下式子：

$δ1(x)−δ2(x)>0⇒xσ2(μ1−μ2)−12σ2(μ12−μ22)>0⇒2x(μ1−μ2)>μ12−μ22\delta_1(x) - \delta_2(x) > 0 \\ \Rightarrow \frac{x}{\sigma^2}(\mu_1-\mu_2) - \frac{1}{2\sigma^2}(\mu_1^2 - \mu_2^2) > 0 \\ \Rightarrow 2x(\mu_1 - \mu_2) > \mu_1^2 - \mu_2^2$

此时可以得到得到一个决策边界，如下：

$\frac{\mu_1^2-\mu_2^2}{2(\mu_1-\mu_2)} = \frac{\mu_1+\mu_2}{2} ~~~~~~~~ 公式(3)$
在上面的例子中，我们假设 $x$ 来自正态分布，所以我们知道 $f_k(x)$ ，但需要估计 $μ,σ\mu,\sigma$ ；此外，我们还假设了 $π1=π2\pi_1=\pi_2$ 。那在实践中，我们依然假设每个类别中的 $x$ 来自正态分布，但需要估计 $μ1,μ2,...,μk\mu_1,\mu_2,...,\mu_k$ ，以及 $π1,π2,...,πk\pi_1,\pi_2,...,\pi_k$ 和 $σ2\sigma^2$ 。
$L D A$ 通过估计 $πk,μk,σ2\pi_k,\mu_k,\sigma^2$ 来近似贝叶斯分类器。在实践中，当 $p = 1$ 时，可以估计出

${μk^=1nk∑i:yi=kxiσ^2=1n−k∑k=1k∑i:yi=k(xi−μ^k)2\begin{cases} \hat{\mu_k} = \frac{1}{n_k}\sum_{i:y_i=k}x_i \\ \hat{\sigma}^2 = \frac{1}{n-k}\sum_{k=1}^k\sum_{i:y_i=k}(x_i - \hat{\mu}_k)^2 \end{cases}$

其中， $n$ 为训练样本总量； $n_k$ 为类别 $k$ 的样本总量；可以看出
- $μ^\hat{\mu}$ 仅仅是第 $k$ 个类别中所有样本的均值
- $σ^2\hat{\sigma}^2$ 是每 $k$ 个类别样本方差的加权平均
如何计算 $πk\pi_k$ ?
- 有的时候该项已知，直接用
- 当缺少 $πk\pi_k$ 时， $L D A$ 使用训练集中某类样本占总样本量的比例来估计 $πk\pi_k$
  
  $π^k=nkn\hat{\pi}_k = \frac{n_k}{n}$
- 最终可以判别 $X = x$ 属于不同类别的概率，式子如下
  
  $δ^k(x)=xμ^kσ^2−μ^k22σ^2+log(π^k) 公式(4)\hat{\delta}_k(x) = x\frac{\hat{\mu}_k}{\hat{\sigma}^2} - \frac{\hat{\mu}_k^2}{2\hat{\sigma}^2} + log(\hat{\pi}_k) ~~~~~~~~ 公式(4)$
- LDA中的"Linear"就源于判别方法 $δ^k\hat{\delta}_k$ 是x的线性方法。