《机器学习实战》—PCA

本文详细介绍了PCA(主成分分析)这一降维技术,解释了降维的目的和作用,包括简化数据集、减少计算开销和去除噪声。PCA通过选择数据中方差最大的方向来构建新的坐标系,实现数据降维。文章还讨论了NumPy中PCA的实现步骤,并展示了如何在半导体制造数据中应用PCA进行降维。通过分析特征值,发现PCA能帮助识别并剔除冗余特征。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

机器学习实战—PCA(主成分分析)

(一)降维技术

1.1降维

1.降维的目标就是对输入的数目进行削减,由此剔除数据中的噪声并提高机器学习方法的性能。

2.降维是对数据高维度特征的一种预处理方法。降维是将高维度的数据保留下最重要的一些特征,去除噪声和不重要的特征,从而实现提升数据处理速度的目的。在实际的生产和应用中,降维在一定的信息损失范围内,可以为我们节省大量的时间和成本。降维也成为了应用非常广泛的数据预处理方法。

3.降维作用:

1.使得数据集更易使用

2.降低很多算法的计算开销

3.去除噪声

4.使得结果易懂

1.2降维技术

1.主成分分析(Principal Component Analysis,PCA)

在PCA中数据从原来的坐标系转换到新的坐标系,系坐标系的选择是由数据本身决定的。第一个新坐标轴选择的是原始数据中方差最大的方向,第二个新坐标轴的选择是和第一个坐标轴正交且具有最大方差的方向。该过程一直重复,重复次数为原始数据中特征的数目。

2.因子分析(Factor Analysis)

在因子分析中,我们假设在观察数据的生成中有一些观察不到的隐变量(latent variable)。假设观察数据是这些隐变量和默写噪声的线性组合。那么隐变量的数据可能比观察数据的数目少,也就是说通过找到隐变量就可以实现数据的降维。

3.独立成分分析(Independent Component Analysis,ICA)

ICA假设数据是从N个数据源生成的。假设数据为多个数据源的混合观察结果,这些数据源之间在统计上是相互独立的。

(二)PCA

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值