主成分分析系列(二)为什么特征向量是主成分

PCA算法详解:寻找数据的最大方差方向
PCA(主成分分析)是一种数据分析方法,通过找到数据集中方差最大的方向来降维。它涉及将数据投影到一个低维子空间,该子空间由数据scatter矩阵的特征向量定义,这些特征向量对应于最大的特征值。PCA首先要求数据中心化,然后计算scatter矩阵,接着找到其特征向量和特征值。最大的k个特征向量构成新空间的基,数据点在这个新基下的投影就是PCA的近似。这种方法用于数据压缩和可视化,但不适用于分类问题,因为它关注的是数据的变异性而非分类信息。

主成分分析系列(一)概览及数据为何要中心化这篇文章中介绍了PCA算法的大概想法及数据为何要中心化,在这篇文章具体推导PCA算法的过程。

1. 首先 PCA 最原始的想法是:

  • V \mathbf{V} V d {d} d线性空间(即 R d \mathbb{R}^d Rd), W \mathbf{W} W V \mathbf{V} V k k k线性子空间 k < d k<d k<d)。在 W \mathbf{W} W 中找到数据 D = { x 1 , x 2 , … x n } \mathbf{D}=\{ \mathbf{x_1},\mathbf{x_2},\dots \mathbf{x_n} \} D={ x1,x2,xn} 最准确的表达。 x i ∈ R d , i = 1 , … , n \mathbf{x_i} \in \mathbb{R}^d, i = 1,\dots,n xiRd,i=1,,n

  • 一组 d d d 维向量 { e 1 , e 2 , … , e k } \{\mathbf {e_1,e_2,…,e_k}\} { e1,e2,,ek},它形成 W \mathbf {W} W的一组正交基 。在 W \mathbf{W} W空间中的任何向量都可以被表示为 ∑ i = 1 k α i e i \sum_{i=1}^{k}\alpha_i \mathbf{e}_{i} i=1kαiei

  • 那么向量 x 1 \mathbf{x_1} x1可以被表示为
    ∑ i = 1 k α 1 i e i \sum_{i=1}^{k}\alpha_{1i} \mathbf{e}_{i}

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

培之

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值