fisher线性判别分析【有监督的降维算法】阅读笔记

最新推荐文章于 2024-04-17 17:55:44 发布

原创

最新推荐文章于 2024-04-17 17:55:44 发布 · 817 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#算法 #线性代数 #机器学习

fisher线性判别分析【有监督的降维算法】

《模式分类》、《百面机器学习》
也称LDA。

一维判别分析

PCA方法寻找的是用来有效表示的主轴方向，而判别分析方法（discriminant analysis）寻找的是用来有效分类的方法。

可分性分析的目标：通过适当的选择投影直线，找到能够最大限度的区分各类数据点的投影方向。

假设我们有一组 $n$ 个 $d$ 维的样本 $,x⃗n\vec{x}_{1}, \cdots, \vec{x}_{n}$ ，它们分属于两个不同的类别，即大小为 $n_{1}$ 的样本子集 $D1\mathcal{D}_{1}$ 属于 $ω1\omega_{1}$ ，大小为 $n_{2}$ 的样本子集 $D2\mathcal{D}_{2}$ 属于 $ω2\omega_{2}$ 。如果对 $x⃗\vec{x}$ 中的各个成分作线性组合，就得到点积，结果是一个标量

$\vec{w}^{T}\vec{x}$

这样，全部的 $n$ 个样本 $,x⃗n\vec{x}_{1}, \cdots, \vec{x}_{n}$ 产生了 $n$ 个结果 $,yny_{1}, \cdots, y_{n}$ ，相应的属于集合 $Y1\mathcal{Y}_{1}$ 和 $Y2\mathcal{Y}_{2}$ 。这里， $w$ 的方向非常重要，而相应的幅值不是很重要，可取 $w\|_{2} = 1$ 。

现在我们来讨论如何确定最佳的直线方向 $w⃗\vec{w}$ ，以达到最好的分类效果。一个用来衡量投影结果的分离程度的度量是样本均值的差。如果 $m_{i}$ 为 $d$ 维样本均值：

$m⃗i=1ni∑x⃗∈Dix⃗\vec{m}_{i} = \frac{1}{n_{i}}\sum_{\vec{x}\in\mathcal{D}_{i}}\vec{x}$

那么投影后的点的样本均值为

$m~i=1ni∑y∈Yiy=1ni∑x⃗∈Diw⃗Tx⃗=w⃗Tm⃗i\tilde{m}_{i} = \frac{1}{n_{i}} \sum_{y\in\mathcal{Y}_{i}}y =\frac{1}{n_{i}}\sum_{\vec{x}\in\mathcal{D}_{i}}\vec{w}^{T}\vec{x} = \vec{w}^{T}\vec{m}_{i}$