主成分分析 PCA | Principal Components Analysis

原创已于 2023-10-06 14:14:25 修改 · 4.1k 阅读

15 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #算法 #人工智能 #主成分分析 #PCA

于 2023-06-03 08:16:58 首次发布

机器学习算法专栏收录该内容

34 篇文章

订阅专栏

主成分分析(PCA)是一种无监督学习算法，用于数据降维和压缩。PCA通过计算协方差矩阵和特征向量，保留主要特征，常用于图像处理、数据可视化、模式识别等领域。其优点包括降维、去冗余，但对线性可分性和异常值敏感。在Python中，常使用scikit-learn库实现PCA。

部署运行你感兴趣的模型镜像

七、类库scikit-learn实现主成分分析的例子

八、主成分分析的模型参数

总结

前言

主成分分析是机器学习中无监督学习的一种降维算法。

一、主成分分析是什么？

主成分分析（Principal Component Analysis，简称PCA）是一种无监督学习算法，是一种简化数据集的技术，主要用于降维和数据压缩。它可以将高维数据映射到低维空间，通过数据投影的线性转化（正交变换），用较少的数据集维数，保留数据集中对方差贡献最大的特征，也就是保留数据的主要特征。

具体来说，PCA会计算原始数据的协方差矩阵，然后找到协方差矩阵的特征向量和特征值。特征向量是新空间的基向量，特征值描述了每个特征向量的重要程度。在建模中，我们可以选择保留最大的k个特征值对应的特征向量，将原始数据投影到这k个特征向量所张成的低维空间中。

二、主成分分析的优点和缺点

优点：

可以降低数据维度：主成分分析算法可以将高维数据降低到低维空间中，从而减少数据的维度，提高计算效率和模型的泛化能力。
可以去除冗余信息：主成分分析算法可以去除数据中的冗余信息，提取出最重要的特征，从而提高模型的准确率和泛化能力。
可以进行数据压缩：主成分分析算法可以将数据压缩到较小的空间中，从而减少存储和传输数据的成本。
可以处理多变量问题：主成分分析算法可以处理多变量问题，从而提高模型的复杂度和准确率。
可以可视化数据：主成分分析算法可以将数据降低到二维或三维空间中，从而方便可视化和理解数据。
可以灵活选择成分数量：各主成分是按方差大小依次排序的，可以根据实际情况灵活取舍；
去噪：PCA可以通过保留主成分，去除噪声和冗余信息，从而提高数据的质量。
特征提取：PCA可以用来提取数据的主要特征，从而帮助分类和聚类等任务。

缺点：

数据必须是线性可分的：主成分分析算法要求数据是线性可分的，如果数据不满足这个条件，则可能导致降维效果不佳。
可能丢失重要信息：主成分分析算法可能会将一些重要信息丢失掉，从而导致模型的准确率下降。
对异常值敏感：主成分分析算法对异常值较为敏感，因为异常值可能会影响协方差矩阵的计算结果。
解释性差：主成分各个特征维度的含义具有一定的模糊性，不如原始样本特征的解释性强；
需要注意的是，在实际应用中，主成分分析算法的性能还受到许多其他因素的影响，例如特征选择、数据预处理等，需要根据具体情况进行调整和优化。

三、主成分分析的应用场景

主成分分析（PCA）是一种常见的数据降维技术，其应用场景包括但不限于以下几个方面：

图像处理：PCA可以用于图像处理中，将高维图像数据降维成低维数据，从而减少计算量和存储空间。
数据可视化：PCA可以用于数据可视化中，将高维数据降维成二维或三维数据，从而更好地进行数据展示和分析。
模式识别：PCA可以用于模式识别中，将高维特征数据降维成低维数据，从而更好地进行分类和识别。
金融风险管理：PCA可以用于金融风险管理中，将多个相关的资产数据降维成少数几个无关的主成分，从而更好地进行风险管理和投资决策。
生物信息学：PCA可以用于生物信息学中，将基因表达数据降维成少数几个主成分，从而更好地进行基因表达分析和分类。
信号处理：PCA可以用于信号处理中，将高维信号数据降维成低维数据，从而更好地进行信号分析和处理。
语音识别：PCA可以用于语音识别中，将高维语音数据降维成低维数据，从而更好地进行语音信号处理和识别。
机器学习：PCA可以用于机器学习中，将高维特征数据降维成低维数据，从而更好地进行模型训练和预测。
社交网络分析：PCA可以用于社交网络分析中，将多个相关的社交网络数据降维成少数几个无关的主成分，从而更好地进行社交网络分析和挖掘。

总之，PCA是一种非常常用的数据降维技术，可应用于多种领域，特别是需要进行高维数据分析和可视化的场景下。

四、构建主成分分析模型的注意事项

PCA算法的实现步骤主要包括收集数据，清洗数据，数据转换，计算协方差矩阵，求解特征值和特征向量，确定主成分数量，计算主成分得分。
其中，以下步骤对于主成分分析比较重要：

数据转换：对所有特征进行中心表转化等转换，统一量纲，对于减少计算量，确定主成分数量和计算主成分得分很有用；
确定主成分数量：通过方差贡献率（通常80%以上）或特征值（通常大于1）来确定最佳主成分数量，根据需要，为聚类等加工数据进行的主成分分析，有时候为了得到更好的聚类结果，可以丢掉更多的信息，选择70%左右的方差贡献率；

五、主成分分析模型的实现类库

Python中可以使用多个类库来实现主成分分析，以下是其中的几个：

Scikit-learn：Scikit-learn是一个流行的Python机器学习类库，提供了主成分分析的实现。您可以使用该库中的PCA类来拟合和转换数据集，以便进行主成分分析。
NumPy：NumPy是Python中用于数值计算的一个核心类库，提供了许多用于线性代数运算的函数。您可以使用该库中的linalg模块来计算数据集的协方差矩阵，并使用eig函数来计算协方差矩阵的特征向量和特征值，从而实现主成分分析。
Pandas：Pandas是Python中用于数据处理和分析的一个流行类库，提供了许多用于数据清洗和转换的函数。您可以使用该库中的DataFrame和Series类来处理数据集，并使用cov函数来计算数据集的协方差矩阵，从而实现主成分分析。

这些类库都提供了不同的方法来实现主成分分析，您可以根据自己的需要选择合适的方法。

六、主成分分析模型的评价指标

主成分分析的常见评价指标包括累计方差贡献率、特征值等。其中，累计方差贡献率可以用来评价主成分对原始变量的解释程度，特征值可以用来评价主成分的重要性。

七、类库scikit-learn实现主成分分析的例子

from sklearn.decomposition import PCA
from sklearn.datasets import load_iris
import matplotlib.pyplot as plt

# 加载鸢尾花数据集
iris = load_iris()
X = iris.data
y = iris.target

# 训练PCA模型
pca = PCA(n_components=2)
pca.fit(X)

# 转换数据
X_pca = pca.transform(X)

# 绘制降维结果
plt.scatter(X_pca[:, 0], X_pca[:, 1], c=y)
plt.show()

八、主成分分析的模型参数

sklearn.decomposition.PCA的主要参数如下：

n_components：指定降维后的主成分个数。可以是整数、浮点数或者字符串，如果是整数，则表示保留的主成分个数；如果是浮点数，则表示保留的主成分方差所占比例的阈值；如果是字符串，则表示保留的主成分方差累积贡献率的阈值。默认值为None，表示保留所有主成分。
copy：布尔值，表示是否在运行PCA算法时复制输入数据。默认为True，表示复制。
whiten：布尔值，表示是否对降维后的数据进行白化处理。默认为False，表示不进行白化处理。
svd_solver：指定奇异值分解（SVD）的求解方法。可以是字符串"auto"、"full"、"arpack"、"randomized"中的一个。默认为"auto"，表示自动选择合适的求解方法。
tol：指定奇异值分解迭代过程的停止阈值。默认为0.0，表示不进行停止阈值的判断。
iterated_power：指定奇异值分解迭代过程中的幂迭代次数。默认为"auto"，表示自动选择合适的幂迭代次数。
random_state：指定随机数生成器的种子。默认为None，表示使用默认的随机数生成器。