PCA(主成分分析)、AE(自编码器)、SAE(堆叠编码器)

前言

主成分分析编码器都可以进行降维处理,发现更便于人们能够理解的特征,也可以用来削减回归分析和聚类分析中变量的数目。后面本文还介绍了自编码器的相关内容。

一、PCA(principal component analysis)

主成分分析是常用的一种降维技术,可以进行数据降为,将高维数据转化成低维数据,通过保留数据中的重要信息和特征,减少数据的存储空间和计算复杂度,也可以理解成进行了特征提取,去除了冗余信息和噪声,实现了噪声过滤,也是常用的一种数据预处理的方法。

1.原理介绍

PCA的任务是进行降为,降为的方法是通过变换坐标系,如下图有几个数据都是二维的,我们通过移动旋转,使其都落在X轴上,那么,我们就可以通过一维坐标来表示这些数据了。当然我们处理的数据不会每次都那么巧的可以落在一个坐标轴上。
在这里插入图片描述
从上面也可看出来,我们的目标是找一个好的坐标系,坐标系自然包括新的坐标原点,和平移坐标系后的旋转角度。我们新坐标原点的就是所有数据的中心点,也就是完成中心化,旋转角度,是为了让数据在新的坐标系下,数据之间的方差最大化。(有效的区分不同的数据,最大可能保存或提取数据的特征信息)
在这里插入图片描述

在这里插入图片描述
找出新的原点(数据中心)相对简单,如何找到合适的旋转角度是关键。
首先,数据的坐标系旋转和拉伸都可以通过线性变换实现,如下图所示。
在这里插入图片描述
在这里插入图片描述
我们PCA的目标就是下面图片所示
在这里插入图片描述
在这里插入图片描述
根据矩阵的相关性质,我们还可以进行逆运算。
在这里插入图片描述
所以怎么求R呢,R就是协方差矩阵。图片中的x,y分别对应原始x轴和y轴的数据。
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
接下来我们可以根据特征值和特征向量来求解R。R对象特征向量,L对应特征值如下图所示:
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
后面代码中我们有一步是对特征向量按照特征值排序是因为特征值表示了特征向量的重要程度。在主成分分析(PCA)中,特征向量代表了数据中的主要变化方向,而特征值表示了数据在这些方向上的变化程度。按照特征值从大到小排序特征向量的目的是选择最重要的特征向量,也就是数据中最具有代表性的方向。具有较大特征值的特征向量对应的方向上,数据的变化程度更大,包含了更多的信息。因此,我们希望选择这些具有较大特征值的特征向量,以保留数据中最重要的信息。通过对特征值进行排序,我们可以选择前k个特征向量,其中k是降维后的维度。这样可以在保留最重要的信息的同时,将数据降低到更低的维度,减少数据的冗余性和计算复杂度。
总之,对特征向量按照特征值排序是为了选择最重要的特征向量,保留数据中最具有代表性的方向,从而实现数据降维和特征提取的目的。

2.代码实现

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值