目录
8.1主成分分析
8.11主成分分析介绍
主成分分析PCA是一种广泛使用的数据降维技术,用于减少数据集的维数,同时尽可能保留数据的主要信息。它通过将数据投影到一个新的正交坐标系中,使得新的坐标系中的每个轴(主成分)都是原始数据集中最大方差方向的线性组合。PCA的应用包括数据压缩、特征提取、数据可视化等。
8.12主成分分析PCA算法流程
(1)对所有的样本进行中心化处理,满足均值为0的分布
(2)计算样本的协方差矩阵
(3)对矩阵进行特征值分解
(4)取出最大的P个特征值对应的特征向量(),将所有的特征向量标准化后,组成特征向量矩阵(投影矩阵)W;
(5)对样本集中的每一个样本x(i),转化为新的样本
(6)得到输出样本集X = (z(1),z(2),z(3),...,z(m))。
8.13PCA优缺点
优点:PCA能有效减少数据的维度,同时保留大部分变异性,有助于去除噪声;通过正交转换消除了数据的相关性