一.基本概念
1.1降维技术
常见的降维技术有三种,分别是主成分分析(PCA),因子分析(FA)和独立成分分析(ICA),本文旨在讲述PCA,因为PCA的应用目前最为广泛。
1.2 PCA
1.2.1PCA的介绍
PCA(Principal Component Analysis,主成分分析)是一种常用的数据分析方法,用于在多个变量中识别出主要的模式或趋势,并减少数据集的维度。PCA 通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,这些新的变量称为主成分。
1.2.1.1主成分
通过PCA转换得到的新变量。这些主成分是按照其“重要性”或“信息量”进行排序的,通常第一个主成分包含了数据集中最大的方差(即信息)。
1.2.1.2方差
在统计学中,方差是衡量数据集中各个数值与其均值之间差异程度的一个指标。在PCA中,方差被用作衡量主成分包含信息量的度量。
1.2.1.3正交变换
PCA使用一种正交变换来转换原始数据。正交变换意味着变换后的变量(即主成分)之间是线性不相关的。
1.2.1.4降维
由于PCA能够识别出数据中的主要模式或趋势,因此它可以用于降低数据集的维度。这通常是通过选择包含最大方差的前几个主成分来实现的。
1.2.1.5解释性
每个主成分都是原始变量的线性组合,因此它们可以解释为原始变量的加权和。这有助于理解数据中的模式和趋势。
PCA在许多领域都有广泛的应用,包括机器学习、模式识别、图像处理、生物信息学等。通过减少数据集的维度,PCA可以降低计算复杂性,同时保留数据中的关键信息。然而,需要注意的是,PCA是一种无监督学习方法,因此在转换过程中不会考虑数据的标签或目标变量。
二.算法流程
2.1伪代码展示
去除平均值
计算协方差矩阵
计算协方差矩阵的特征值和特征向量