PCA 学习笔记

1.
    算法的时间复杂度跟维数成指数级增加
2.

    数据降维好处:

     1.使数据集更容易使用; 2.降低算法的计算开销; 3.去除噪声; 4.减轻过拟合; 5.易于获取有价值的信息.

3.操作方法:

    (1)特征选择:从原始特征中挑选最具代表性的一些特征。

        特征子集选择体系结构,分为四部分:
            子集评估度量、
            控制新的特征子集产生的搜索策略、
            停止搜索判断、
            和验证过程。

        ===<<<<  特征加权是一种 保留或删除特征的办法。权值大,特征重要。>>>>>>=======  SVM中使用:每个特征赋予一个权值。

    (2)特征提取:

        用变换(映射)的方法,把原始特征变换为较少的新特征。

        =====<<<<<<  由 原始数据创建新的特征集称为特征提取。>>>==>>>>>

4.    PCA(Principal Component Analysis,主成分分析): 
    
    PCA 可以帮助我们识别出基于 特征之间的关系识别出数据内在的模式。
    从数学层面理解,PCA 的目标就是在高维数据中找到最大方差的方向.

    应用领域包括:
        股票交易市场数据的探索性分析、
        生物 信息学领域的基因组和基因表达水平数据分析等。


    PCA处理过程:
        (1)以新特征坐标是相互正交的为约束条件,新的子空间上正交的坐标 轴(主成分)可被解释为方差最大方向。

        (2)第一个新坐标轴选择的是【原始数据】中【方差】最大的方向,
            第二个新坐标轴选择 和第一个坐标轴【正交】且具有【方差次大】的方向。

            此过程一直重复,重复次数为原始 数据中【特征的数目】。<<<<<<<<< 大部分方差都集中在最前面的几个新坐标轴 >>>>>>> 中。因此,可以 忽略余下的坐标轴,即对数据进行了降维处理。

    PCA 优缺点:
    优点:降低数据的复杂性, 识别最重要的多个特征 缺点:不一定需要, 且可能损失有用信息


5。
    对角元素:各特征自身的方差;非对角元素:两特征间的协方差。

    协方差是用来度量两个随机变量之间的关系:
        X,Y 可以看做是多维数据中抽取的其中两维特征。协方差越大,相关性越大。
        当协方差为 0,表示两个特征向量完全独立,为了更多表示信息量,希望两个特 征之间不相关(即独立)。


        

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值