Chapter 6: Dimensionality Reduction: Squashing the Data Pancake with PCA

本文深入解析PCA(主成分分析)的原理,强调其在解决特征间线性依赖问题中的作用,以及最大化数据点在新特征空间中变异的重要性。讨论了PCA在实际应用中的注意事项,包括数据预处理的必要性,如何选择主成分数量,以及PCA的潜在缺点。同时,文章提供了PCA在异常检测、时间序列分析及图像预处理中的应用案例。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

PCA原理

PCA

PCA实施注意事项

  • 注意事项
    1)PCA主要解决feature 之间 linear dependency的问题;
    2)PCA核心思想:maximize the variance of data point in the new feature space;
    3)利用PCA之前,要先对data进行“去中心化”。
  • hyperparameter k(principle component 数量)选取:
    根据想要的variance比重,来选取k值,given k,variance比重,可以根据“特征值”来确定:
  • PCA downsides
    1)hard to interpret;
    2)由于PCA的计算是通过SVD进行的,因此,其computationaly expensive。如果data feature达到 a few thousand features,最好不用;
  • Suggestion
    it is best not to apply PCA to raw countss (word counts, music play
    counts, movie viewing counts, etc.)。

    The reason for this is that such counts often contain large outliers. As we know, PCA looks for linear correlations within the features.
    Correlation and variance statistics are very sensitive to large outliers; a single large number could change the statistics a lot. So, it is a good idea to first trim the data of large values (“Frequency-Based Filtering”), or apply a scaling transform like tf-idf (Chapter 4) or the log transform (“Log Transformation”).

Application of PCA

  • anomaly detection of time series
    个人理解:通过特征值下降趋势来判断异常点位置;
  • 利用PCA寻找common factors in the input ???
  • 利用ZCA对image做preprocessing,使得image 各个pixel之间没有linear dependency。在image task中,并非必须,加上ZCA只是使得convergence 更快。
  • PCA,ZCA并不一定对所有data都有用。

whitening and ZCA whitening

  • Whitening
    Whitening目的:(i)特征之间相关性较低;(ii)所有特征具有相同的方差。
  • ZCA whitening

    通过ZCA可以得到一组linear independence features,features数量与原始data features量相等。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Sarah ฅʕ•̫͡•ʔฅ

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值