降维技术全解析:从线性到非线性方法
在数据分析和机器学习领域,降维是一项至关重要的技术,它能够帮助我们处理高维数据,减少计算复杂度,同时保留数据的关键信息。本文将详细介绍多种降维方法,包括线性方法和非线性方法。
1. 主成分分析(PCA)基础
PCA 是一种常用的线性降维方法,其核心思想是通过找到数据的主成分,将数据投影到低维空间。对于样本的协方差矩阵,数据集的最大变化可以沿着该矩阵对应最大特征值的特征向量方向实现。主成分就是该矩阵对应前 k 个最大特征值的特征向量。
在进行投影时,需要对向量进行归一化操作,使其长度为 1。如果是超平面,则使用基向量矩阵。将数据矩阵与基向量矩阵相乘,即可得到数据的正交投影。若想恢复原始样本,可将数据矩阵的转置与主成分向量矩阵相乘,但如果主成分数量少于原始空间的维度,会丢失一些信息。
2. 奇异值分解(SVD)
SVD 是一种重要的数据分析方法,可用于计算 PCA。任何矩阵(实数或复数)都可以表示为三个矩阵的乘积:
[A = U\Sigma V^H]
其中,(U) 是阶为 (m) 的酉矩阵,(\Sigma) 是主对角线上有非负奇异值的矩阵(主对角线外元素为零),(V^H) 是阶为 (n) 的共轭转置矩阵。矩阵 (U) 的列和 (V) 的列分别称为矩阵 (A) 的左奇异向量和右奇异向量。
为了降维,矩阵 (\Sigma) 很重要,其元素的平方可解释为每个分量对联合分布的方差贡献,且按降序排列。在选择 SVD 中的分量数量时,需要考虑它们的方差之和。
SVD 与 PCA 的关系为:设 (C) 是协方差矩阵,(C = XX^T)((X) 为数据矩阵),
超级会员免费看
订阅专栏 解锁全文
54

被折叠的 条评论
为什么被折叠?



