1.
算法的时间复杂度跟维数成指数级增加
2.
数据降维好处:
1.使数据集更容易使用; 2.降低算法的计算开销; 3.去除噪声; 4.减轻过拟合; 5.易于获取有价值的信息.
3.操作方法:
(1)特征选择:从原始特征中挑选最具代表性的一些特征。
特征子集选择体系结构,分为四部分:
子集评估度量、
控制新的特征子集产生的搜索策略、
停止搜索判断、
和验证过程。
===<<<< 特征加权是一种 保留或删除特征的办法。权值大,特征重要。>>>>>>======= SVM中使用:每个特征赋予一个权值。
(2)特征提取:
用变换(映射)的方法,把原始特征变换为较少的新特征。
=====<<<<<< 由 原始数据创建新的特征集称为特征提取。>>>==>>>>>
4. PCA(Principal Component Analysis,主成分分析):
PCA 可以帮助我们识别出基于 特征之间的关系识别出数据内在的模式。
从数学层面理解,PCA 的目标就是在高维数据中找到最大方差的方向.
应用领域包括:
股票交易市场数据的探索性分析、
生物 信息学领域的基因组和基因表达水平数据分析等。
PCA处理过程:
(1)以新特征坐标是相互正交的为约束条件,新的子空间上正交的坐标 轴(主成分)可被解释为方差最大方向。
(2)第一个新坐标轴选择的是【原始数据】中【方差】最大的方向,
第二个新坐标轴选择 和第一个坐标轴【正交】且具有【方差次大】的方向。
此过程一直重复,重复次数为原始 数据中【特征的数目】。<<<<<<<<< 大部分方差都集中在最前面的几个新坐标轴 >>>>>>> 中。因此,可以 忽略余下的坐标轴,即对数据进行了降维处理。
PCA 优缺点:
优点:降低数据的复杂性, 识别最重要的多个特征 缺点:不一定需要, 且可能损失有用信息
5。
对角元素:各特征自身的方差;非对角元素:两特征间的协方差。
协方差是用来度量两个随机变量之间的关系:
X,Y 可以看做是多维数据中抽取的其中两维特征。协方差越大,相关性越大。
当协方差为 0,表示两个特征向量完全独立,为了更多表示信息量,希望两个特 征之间不相关(即独立)。