数据分类算法:线性判别分析与支持向量机
1. 引言
在数据分类领域,有多种有效的算法可以帮助我们对不同类别的数据进行区分和识别。本文将重点介绍线性判别分析(LDA)和支持向量机(SVM)这两种经典的分类算法,包括它们的原理、数学公式、实现步骤以及实际应用中的效果。
2. 线性判别分析(LDA)
2.1 LDA 概述
线性判别分析(LDA)是一种早期且标准的监督学习分类方法,由 Fisher 在 1936 年提出,后由 C. R. Rao 推广到多类数据。其目标是找到特征的线性组合,以区分数据中的两个或多个类别。在监督学习中,我们有标记好的数据来指导分类算法。
2.2 LDA 的目标
LDA 的目标是找到一个合适的投影,使得类间数据的距离最大化,同时类内数据的距离最小化。具体来说,对于两类 LDA,我们要构建一个投影 $w$,使得:
[w = \arg\max_{w} \frac{w^T S_B w}{w^T S_W w}]
其中,$S_B$ 是类间散度矩阵,$S_W$ 是类内散度矩阵,计算公式分别为:
[S_B = (\mu_2 - \mu_1)(\mu_2 - \mu_1)^T]
[S_W = \sum_{j=1}^{2} \sum_{x \in D_j} (x - \mu_j)(x - \mu_j)^T]
这些矩阵本质上衡量了数据集的方差以及均值差异的方差。上述准则通常被称为广义瑞利商,其解可以通过广义特征值问题 $S_B w = \lambda S_W w$ 找到,其中最大特征值 $\lambda$ 及其对应的特征向量即为我们感兴趣的量和投影基。
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



