浅谈PCA(2)

本文探讨PCA(主成分分析)的降维目的、标准和实现方法。降维是为了简化计算,PCA通过找到最大化方差的方向来确定降维后的轴线。降维标准是选择特征值大的特征向量方向,实现降维则涉及计算特征向量。PCA的基本步骤包括数据归一化、计算特征向量。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

        首先,抛开一切已有说法,用我自己的话说一遍,可能稍显寒碜。

        PCA的主要目的是降维,这里涉及到几个问题:什么是降维?降维的标准是什么?怎样实现降维?

        下面依次从这三个问题入手讨论。

        (1)什么是降维?

        这里维度的概念就不解释了。可以简单地将降维理解为:数据的维度越大,对于计算就越复杂,需要将高维数据表示在低维上以满足各种要求(至于为什么需要降维,可能在不同领域涉及到的问题是不一样的,在模式识别中,可能主要原因还是避免引起“维数灾难”等问题)。例如,在一个二维空间中,数据的维度是二,于是又坐标系中的x、y坐标值。但是由于各种原因,我们需要将二维的数据降到一维,即将在二维坐标系中的每个点投影到一维上,一条轴线上。于是引出了一下两个问题,降维的标准和降维的方法,即什么样的轴线是降维后原数据需要投影的轴线?怎样找到这条轴线?

        (2)降维的标准是什么?

        同样用刚才的例子,这个问题等同于:什么样的轴线才是符合我们要求的轴线?简单的回答就是方差大的那个方向,或者特征值大对应的特征向量的方向。如果认为将二维数据降到一维数据中,数据点离投影轴距离越远表示噪声越大,那么降维的目的就是要最小化总体噪声,找到最大信噪比的方向,而信噪比可以定义为方差比。例如一个椭圆形的数据点集,降维后的投影轴就是椭圆的长轴(我觉得为了说明这一个简单的现象我费了不少口舌,但是好像还是没有把问题简单化ÿ

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值