问题:
什么是降维算法
降维算法有哪些
各自是怎么实现降维的
降维算法,是为了使庞大的数据,多个特征,在之后能得到更好的处理效果,如分类,进行尽量保持原有信息的数据的压缩同时提高数据的处理效率。
降维算法中有两种,LDA 线性判别分析 和 PCA 主成分分析
LDA是针对有监督问题的,PCA是针对无监督问题的。
LDA,Linear Discrimination Analysis ,线性判别分析
在有监督的问题中,LDA希望能找到最有价值的那几个特征,把方向往该方向投影,
数据得到充分分开,便于之后的模型建立。
其目标:最大化类间区分度。(针对特定方向)
那么如何找到最合适的投影呢(能够最大化类间区分度的投影)
我们可以先来设想,什么样的投影是我们想找的
首先投影完之后我们希望数据的分布是清晰的,那么类间的距离应该是越大越好的
其次,同类别的数据尽量靠近。
而怎样才算是类间的距离呢?
看边界点?那有可能数据的情况是这样的:某些点处于边界,而绝大多数点是集中在一起的,那么这时候看边界点就不是那么合适了。因此我们选用类间的均值来比较。每个类的均值之差的累和越大越好。
(实际处理上的妙点:因为去遍历所有的类其实在庞大的数据中是耗费时间和资源的,那么我们可以选用各类均值和全句均值之差的累和来判别类间距离)
而同类的数据就是,投影后统计所有类别的在同一类别中的所有点和其均值之差的累和。
那么我