一.概念
主成分分析,即Principle Component Analysis (PCA),是一种传统的统计学方法,被机器学习领域引入后,通常被认为是一种特殊的非监督学习算法,其可以对复杂或多变量的数据做预处理,以减少次要变量,便于进一步使用精简后的主要变量进行数学建模和统计学模型的训练,所以PCA又被称为主变量分析。
二.原理
PCA的原理及运行过程如下:
-
标准化数据:对于给定的数据集,首先需要对每个特征进行标准化处理,使其均值为0,方差为1。这是为了确保每个特征在计算中具有相同的权重。
-
计算协方差矩阵:对标准化后的数据集计算协方差矩阵。协方差矩阵反映了不同特征之间的线性关系。协方差矩阵的元素表示了相应特征之间的协方差,可以通过以下公式计算:
其中,N是样本数量,xi是第i个样本的特征向量,x̄是