18、数据分类算法：线性判别分析与支持向量机-优快云博客

本文链接：https://blog.youkuaiyun.com/tensor9flow/article/details/152346840

数据分类算法：线性判别分析与支持向量机

1. 引言

在数据分类领域，有多种有效的算法可以帮助我们对不同类别的数据进行区分和识别。本文将重点介绍线性判别分析（LDA）和支持向量机（SVM）这两种经典的分类算法，包括它们的原理、数学公式、实现步骤以及实际应用中的效果。

2. 线性判别分析（LDA）

2.1 LDA 概述

线性判别分析（LDA）是一种早期且标准的监督学习分类方法，由 Fisher 在 1936 年提出，后由 C. R. Rao 推广到多类数据。其目标是找到特征的线性组合，以区分数据中的两个或多个类别。在监督学习中，我们有标记好的数据来指导分类算法。

2.2 LDA 的目标

LDA 的目标是找到一个合适的投影，使得类间数据的距离最大化，同时类内数据的距离最小化。具体来说，对于两类 LDA，我们要构建一个投影 $w$，使得：
[w = \arg\max_{w} \frac{w^T S_B w}{w^T S_W w}]
其中，$S_B$ 是类间散度矩阵，$S_W$ 是类内散度矩阵，计算公式分别为：
[S_B = (\mu_2 - \mu_1)(\mu_2 - \mu_1)^T]
[S_W = \sum_{j=1}^{2} \sum_{x \in D_j} (x - \mu_j)(x - \mu_j)^T]
这些矩阵本质上衡量了数据集的方差以及均值差异的方差。上述准则通常被称为广义瑞利商，其解可以通过广义特征值问题 $S_B w = \lambda S_W w$ 找到，其中最大特征值 $\lambda$ 及其对应的特征向量即为我们感兴趣的量和投影基。