特征选择的目的:
①:降低特征空间的维度,使后续的分类器设计在计算上更容易实现;
②:为了消除特征之间可能存在的相关性,减少特征中与分类无关的信息,使新特征更有利于分类。
主成分分析方法:
(1)算法的出发点是从一组特征中计算出一组按重要性从大到小排列的新特征,它们是原有特征的线性组合,并且相互之间是不相关的。
(2)算法实现思路:
①记为p个原始特征,设新特征
是这些原始特征的线性组合:
为了统一的尺度,我们要求线性组合系数的模为1,即有:
②将①写成矩阵的形式为:
这里,其中是由新特征
组成的向量,A是由
构造的特征变换矩阵。要求解的是最优的正交变换A,它使新特征
的方差达到了极值。正交变换保证了新特征间不相关,而新特征的方差越大,则样本在该维特征上的差异越大,这一特征越重要。
以下部分为A的求解及推导过程:
③考察新特征,其方差为
,此处的
表示x的协方差矩阵。
④在约束条件下(),最大化
的方差
。写成拉格朗日函数的形式为:
其中,是拉格朗日乘子。
⑤对求导,得到最优解满足
。这是协方差矩阵
的特征方程,即
是
的特征向量,
是对应的特征值。
⑥将⑤中的解带入③,可以得到的最大方差为:
从该式可以看出,欲使最大,即要使
最大。因此,最优的
应该是
的最大特征值对应的特征向量。
(3)协方差矩阵共有p个特征值
,其中包括可能相等的特征值和可能为0的特征值。把所有的特征值从大到小排序为
。由特征值得到特征向量
,进而得到主成分
。全部主成分的方差之和为:
(4)变换矩阵A的各个列向量是由的正交归一的特征向量(按特征值从大到小)组成的。
,即A是正交向量。
(5)如果取前K个主成分,则这K个主成分所代表的数据占据全部方差的比例为: