机器学习入门(八):主成分分析(PCA)

本文深入解析PCA(主成分分析)的数学基础,包括特征值与特征向量的概念,以及PCA在数据降维中的应用步骤。通过实例演示了如何使用Python进行PCA计算,展示数据投影到低维空间的过程。

PCA是机器学习中常用的方法,其主要作用是降维。因为做运算的时候会遇到维度特别大的情况,如果蛮力求解会导致维度灾难。而通过降维可以有效避免这些情况的产生,同时减少运算开销。

要了解PCA首先要了解特征值及特征向量

特征值与特征向量

定义:有一个n * n的矩阵,如果存在一个非零向量xxx使得Ax=λxAx=\lambda xAx=λx,则称标量λ\lambdaλ为特征值(Eigenvalue),而x为特征向量(Eigenvector)。

光看定义其实很抽象,到底大家常说的特征值和特征向量的本质是什么?先看这么一个问题:

某个城镇,每年30%的已婚女性离婚,且20%的单婚女性结婚。假定共有8000名已婚和2000名未婚女性,并且总人口保持不变。我们研究结婚率和离婚率保持不变时将来长时间的期望问题。

首先,很简单,一年后的女性人口比例为:
w1=Aw0=[0.70.20.30.8][80002000]=[60004000]w_1=Aw_0=\begin{bmatrix} 0.7&0.2\\0.3&0.8 \end{bmatrix}\begin{bmatrix}8000\\2000\end{bmatrix}=\begin{bmatrix}6000\\4000\end{bmatrix} w1=Aw0=[0.70.30.20.8][80002000]=[60004000]如果觉得矩阵看着不太方便的,直接列式计算也是一样。

同理,第二年w2=Aw1=A2w0w_2=Aw_1=A^2w_0w2=Aw1=A2w0

可以用python进行验证以下几个结果
w10=[40045996]w_{10}=\begin{bmatrix}4004\\5996\end{bmatrix}w10=[40045996]

w20=[40006000]w_{20}=\begin{bmatrix}4000\\6000\end{bmatrix}w20=[40006000]

w30=[40006000]w_{30}=\begin{bmatrix}4000\\6000\end{bmatrix}w30=[40006000]

发现过了某个点之后,人口会一直保持不变,(其实这就是个马尔可夫链)。实际上,从w12w_{12}w12之后就一直是[40006000]T\begin{bmatrix}4000&6000\end{bmatrix}^T[40006000]T,并且:
Aw12=[0.70.20.30.8][40006000]=[40006000]Aw_{12}=\begin{bmatrix}0.7&0.2\\0.3&0.8\end{bmatrix}\begin{bmatrix}4000\\6000\end{bmatrix}=\begin{bmatrix}4000\\6000\end{bmatrix}Aw12=[0.70.30.20.8][40006000]=[40006000]

A乘上一个向量,等于这个向量本身,这是不是有点眼熟,正是Ax=λxAx=\lambda xAx=λx 只不过这里的λ=1\lambda=1λ=1

这里还是没有说明特征值到底是什么,接着看。

这个收敛的过程,对任意的人口分布{10000-p, p}都是成立的(p是单身人口),也就是说,无论初始向量是否相等,最后都会得到同样的稳态向量(这里不证明这个,可自行尝试其他初始值)。选择稳态向量的倍数x1=(2,3)Tx_1=(2, 3)^Tx1=(2,3)T作为一个基向量,则:
Ax1=[0.70.20.30.8][23]=[23]=x1 Ax_1=\begin{bmatrix}0.7&0.2\\0.3&0.8\end{bmatrix}\begin{bmatrix}2\\3\end{bmatrix}=\begin{bmatrix}2\\3\end{bmatrix}=x_1Ax1=[0.70.30.20.8][23]=[23]=x1
这里的x1x1x1也是个稳态向量,但是不能把同一个向量的倍数当作第二个向量,所以暂时还只有一个稳态向量。

另外一个稳态向量x2=(−1,1)Tx_2=(-1,1)^Tx2=(1,1)T

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值