概率分类器:判别分析与逻辑回归详解
在机器学习和数据分析领域,概率分类器是一类强大的工具,用于根据输入特征对样本进行分类。本文将深入探讨两种常见的概率分类器:判别分析(Discriminant Analysis)和逻辑回归(Logistic Regression),介绍它们的原理、应用场景以及优缺点。
1. 判别分析基础
判别分析的核心目标是根据样本的特征将其分配到不同的类别中。在判别分析中,我们通常假设样本的特征服从多元高斯分布,即 $X|c_r \sim N(x|\mu_r, \Sigma_r)$,其中 $\mu_r$ 是第 $r$ 类的均值向量,$\Sigma_r$ 是第 $r$ 类的协方差矩阵。
判别函数 $g_r(x)$ 用于衡量样本 $x$ 属于第 $r$ 类的可能性,其表达式为:
[g_r(x) = \ln f(x|c_r) + \ln p(C = c_r)]
其中 $f(x|c_r)$ 是第 $r$ 类的条件概率密度函数,$p(C = c_r)$ 是第 $r$ 类的先验概率。
参数 $\mu_r$ 和 $\Sigma_r$ 通常是未知的,需要从数据中进行估计。常用的方法是最大似然估计(MLE),即:
[\hat{\mu} r = \frac{1}{N_r} \sum {i:c_i = c_r} x_i]
[\hat{\Sigma} r = \frac{1}{N_r} \sum {i:c_i = c_r} (x_i - \hat{\mu}_r)(x_i - \hat{\mu}_r)^T]
[\hat{p}(C = c_r) = \frac{N_r}{N}
超级会员免费看
订阅专栏 解锁全文
1482

被折叠的 条评论
为什么被折叠?



