第十讲:主成分分析(Principal components analysis)

主成分分析(PCA)是一种数据降维方法,通过对数据进行正则化和特征向量计算,找出数据的主要变异轴。PCA不仅简化数据,还可用于数据可视化、预处理和噪声过滤。它通过最大化投影的方差选择主特征向量,这些向量形成数据的新正交基,使得低维表示保留原始数据的方差信息。

前面我们讲了因子分析(factor analysis),其中在某个 kkk 维度子空间对 x∈Rnx ∈ R^nxRn 进行近似建模,kkk 远小于 nnn,即 k≪nk ≪ nkn。具体来说,我们设想每个点 x(i)x^{(i)}x(i) 用如下方法创建:首先在 kkk 维度仿射空间(affine space) Λz+μ;z∈Rk{Λz + μ; z ∈ R^k}Λz+μ;zRk 中生成某个 z(i)z^{(i)}z(i) ,然后增加 ΨΨΨ-协方差噪音(covariance noise)。因子分析(factor analysis)是基于一个概率模型(probabilistic model),然后参数估计(parameter estimation)使用了迭代期望最大化算法(iterative EM algorithm)。

在本章讲义中,我们要学习一种新的方法,主成分分析(Principal Components Analysis,缩写为 PCA),这个方法也是用来对数据近似(approximately)所处的子空间(subspace)进行判别(identify)。然而,主成分分析算法(PCA)会更加直接,只需要进行一种特征向量(eigenvector)计算(在 Matlab 里面可以通过 eig 函数轻松实现),并且不需要再去使用期望最大化(EM)算法。

假如我们有一个数据集 { x(i);i=1,...,m}\{x^{(i)}; i = 1, . . ., m\}{ x(i);i=1,...,m},其中包括了 mmm 种不同汽车的属性,例如最大速度(maximum speed),转弯半径(turn radius)等等。设其中每个 iii 都有 x(i)∈Rn,(n≪m)x^{(i)} ∈ R^n,(n ≪ m)x(i)Rn(nm)。但对于两个不同的属性,例如 xix_ixixjx_jxj,对应着以英里每小时(mph)为单位的最高速度和以公里每小时(kph)为单位的最高速度。因此这两个属性应该基本是线性相关(linearly dependent)的,只在对 mph 和 kph 进行四舍五入时候会有引入一些微小差异。所以,这个数据实际上应该是近似处于一个 n−1n-1n1 维度的子空间中的。我们如何自动检测和删除掉这一冗余(redundancy)呢?

举一个不那么麻烦的例子,设想有一个数据集,其中包含的是对一个无线电遥控直升机(radio-controlled helicopters)飞行员协会进行调查得到的数据,其中的 x1(i)x_1^{ (i)}x1(i) 指代的是飞行员 iii 的飞行技能的度量,而 x2(i)x_2^{(i)}x2(i) 指代的是该飞行员对飞行的喜爱程度。无线电遥控直升机是很难操作的,只有那些非常投入,并且特别热爱飞行的学生,才能成为好的飞行员。所以,上面这两个属性 x1x_1x1x2x_2x2 之间的相关性是非常强的。所以我们可以认为在数据中沿着对角线方向(也就是下图中的 u1u_1u1 方向)表征了一个人对飞行投入程度的内在“源动力(karma)”,只有少量的噪音脱离这个对角线方向。如下图所示,我们怎么来自动去计算出 u1u_1u1 的方向呢?

图 1 飞行员协会调查数据

我们接下来很快就要讲到主成分分析算法(PCA algorithm)了。但在运行 PCA 之前,我们首先要进行一些预处理(pre-process),正则化(normalize)数据的均值(mean)和方差(variance),如下所示:

  1. Let μ=1m∑i=1mx(i)\mu=\frac1m\sum_{i=1}^mx^{(i)}
<think>好的,我现在需要回答用户关于主成分分析PCA)的概念、实现方法和应用场景的问题。首先,我得回顾一下自己了解的PCA知识,同时结合用户提供的引用内容,确保回答准确且符合要求。 用户提供的引用中有几个关键点需要注意。引用[1]提到PCA是数据降维的方法之一,引用[3]和[4]详细解释了PCA的原理,包括其作为非监督学习的方法,通过特征值分解进行数据压缩和去噪,以及主成分是原始数据的线性组合。引用[5]给出了一个使用scikit-learn实现PCA的代码示例。此外,引用[3]还提到了PCA的变种,如KPCA、增量PCA和稀疏PCA,这些可能在回答优化或应用部分有用。 首先,我需要明确用户的问题分为三个部分:概念、实现方法和应用场景。结构上应该分点回答,每个部分清晰。同时,根据系统级指令,行内数学公式需要用$...$,独立公式用$$...$$,并且正确使用LaTeX语法。还要生成相关问题,并在引用处添加标识。 概念部分,需要解释PCA的基本原理。根据引用[4],PCA是一种线性变换技术,用于降维并保留大部分信息。主成分是正交变换后的新坐标轴,是原始变量的线性组合。这里可能需要提到方差最大化,即PCA找到数据方差最大的方向作为第一主成分,后续成分与前面的正交且方差次大。需要数学表达式,比如协方差矩阵、特征值分解等。例如,协方差矩阵的计算公式,特征值和特征向量的作用。 实现方法部分,引用[5]中的代码示例是一个很好的起点。需要分步骤说明PCA的实现过程,包括数据标准化、计算协方差矩阵、特征分解、选择主成分、投影数据等步骤。同时,可以提到使用scikit-learn的PCA类简化流程。这里需要确保代码块正确,并解释关键参数如n_components。 应用场景部分,根据引用[1]、[3]、[4],PCA常用于数据压缩、可视化、去噪、特征提取等。比如在图像处理、金融数据分析、生物信息学等领域。需要具体例子,如人脸识别中的降维,或基因组数据中的特征提取。同时,引用[3]提到的变种应用场景,如KPCA处理非线性数据,可以补充说明。 在写作过程中,要检查数学公式的正确性。例如,协方差矩阵的公式是否正确,特征值分解的表示是否准确。例如,协方差矩阵的计算应该是$\frac{1}{n-1}X^TX$,其中$X$是标准化后的数据矩阵。特征分解部分,协方差矩阵分解为$W\Lambda W^T$,其中$W$是特征向量矩阵,$\Lambda$是特征值对角矩阵。 此外,需要确保每个引用标识正确对应到用户提供的引用内容。例如,提到PCA作为非监督学习的方法时引用[3],提到主成分是线性组合时引用[4],代码示例引用[5]。 生成相关问题部分,需要考虑用户可能进一步想知道的内容,比如PCA的优缺点、与其他降维方法的比较、参数选择的影响、数学推导细节等。例如,如何选择主成分的数量,PCA与LDA的区别,PCA的假设是否限制其应用等。 最后,要确保回答结构清晰,分点明确,语言通顺,符合中文习惯。同时,行内公式正确使用$符号,独立公式单独成段,并正确使用LaTeX语法,例如协方差矩阵、投影公式等。</think>### 主成分分析PCA)详解 #### 一、概念与数学原理 主成分分析PCA)是一种**非监督学习的线性降维方法**,核心是通过正交变换将高维数据映射到低维空间,同时保留最大方差信息[^3]。其数学原理包含以下关键步骤: 1. **数据标准化**:将原始数据去中心化(均值为0),公式为: $$X_{\text{norm}} = X - \mu \quad (\mu \text{为均值向量})$$ 2. **协方差矩阵计算**:标准化后的数据计算协方差矩阵: $$C = \frac{1}{n-1}X_{\text{norm}}^T X_{\text{norm}}$$ 3. **特征值分解**:对协方差矩阵$C$进行特征分解,得到特征值$\lambda_i$和对应特征向量$W$: $$C = W \Lambda W^T \quad (\Lambda \text{为特征值对角矩阵})$$ 4. **主成分选择**:按特征值从大到小排序,选取前$k$个特征向量构成投影矩阵$W_k$,将原始数据投影到低维空间: $$Z = X_{\text{norm}} W_k$$ 每个主成分对应一个特征向量,其重要性由特征值$\lambda_i$衡量,方差贡献率为$\lambda_i / \sum \lambda_i$[^4]。 --- #### 二、实现方法(Python示例) 使用`scikit-learn`实现PCA的完整流程: ```python from sklearn.decomposition import PCA from sklearn.preprocessing import StandardScaler # 数据标准化(PCA前必须) scaler = StandardScaler() X_scaled = scaler.fit_transform(X) # 初始化PCA并降维 pca = PCA(n_components=2) # 指定保留2个主成分 X_pca = pca.fit_transform(X_scaled) # 查看方差贡献率 print("方差贡献率:", pca.explained_variance_ratio_) ``` **关键参数说明**: - `n_components`:可设为整数(目标维度)或小数(保留方差的百分比,如0.95) - `svd_solver`:优化算法选择(如`auto`, `full`, `randomized`) --- #### 三、应用场景 1. **数据可视化**:将高维数据降至2D/3D,便于绘制散点图观察分布。 2. **特征压缩**:减少图像、语音等数据的存储和计算成本[^4]。 3. **去噪与预处理**:通过保留主成分过滤噪声,提升模型鲁棒性。 4. **多变量分析**:在金融领域分析股票收益率的关联性,或在生物信息学中处理基因表达数据[^1][^4]。 **案例**: 在人脸识别中,PCA可将数万像素的图片降至几十个主成分(特征脸),显著提升分类效率。 --- #### 四、优化与限制 - **优化方法**: - **核PCA(KPCA)**:通过核函数处理非线性数据。 - **增量PCA**:适用于内存不足的大数据集[^3]。 - **局限性**: - 主成分的可解释性较弱(线性组合可能缺乏物理意义)。 - 对异常值敏感,需提前标准化处理。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值