特征降维之SVD分解

本文介绍了奇异值分解(SVD)的基本概念及其在非方阵中的应用。SVD是一种强大的矩阵分解方法,可以应用于任意大小的矩阵。文章解释了如何通过SVD获取左奇异向量和右奇异向量,并讨论了奇异值与特征值之间的联系。

     奇异值分解。特征值分解是一个提取矩阵特征很不错的方法,但是它只是对方阵而言的,在现实的世界中,我们看到的大部分矩阵都不是方阵,比如说有N个学生,每个学生有M科成绩,这样形成的一个N * M的矩阵就不可能是方阵,我们怎样才能描述这样普通的矩阵呢的重要特征呢?奇异值分解可以用来干这个事情,奇异值分解是一个能适用于任意的矩阵的一种分解的方法

image    假设A是一个N * M的矩阵,那么得到的U是一个N * N的方阵(里面的向量是正交的,U里面的向量称为左奇异向量),Σ是一个N * M的矩阵(除了对角线的元素都是0,对角线上的元素称为奇异值),V’(V的转置)是一个N * N的矩阵,里面的向量也是正交的,V里面的向量称为右奇异向量),从图片来反映几个相乘的矩阵的大小可得下面的图片

image

    那么奇异值和特征值是怎么对应起来的呢?首先,我们将一个矩阵A的转置 * A,将会得到一个方阵,我们用这个方阵求特征值可以得到:image    这里得到的v,就是我们上面的右奇异向量。此外我们还可以得到:

image    这里的σ就是上面说的奇异值,u就是上面说的左奇异向量。奇异值σ跟特征值类似,在矩阵Σ中也是从大到小排列,而且σ的减少特别的快,在很多情况下,前10%甚至1%的奇异值的和就占了全部的奇异值之和的99%以上了。也就是说,我们也可以用前r大的奇异值来近似描述矩阵,这里定义一下部分奇异值分解

image

    r是一个远小于m、n的数,这样矩阵的乘法看起来像是下面的样子:

image

    右边的三个矩阵相乘的结果将会是一个接近于A的矩阵,在这儿,r越接近于n,则相乘的结果越接近于A。而这三个矩阵的面积之和(在存储观点来说,矩阵面积越小,存储量就越小)要远远小于原始的矩阵A,我们如果想要压缩空间来表示原矩阵A,我们存下这里的三个矩阵:U、Σ、V就好了。

### PCA主成分分析用于 主成分分析(PCA)是一种统计方法,通过正交变换将一组可能存在线性相关性的变量转换为一组线性不相关的变量,这组新变量被称为“主成分”。这种技术常被用来低数据集的,在保留尽可能多的信息的同时减少计算复杂和存储需求。 #### 如何实现PCA? 为了执行PCA操作,通常会经历以下几个过程: 1. 数据标准化处理; 2. 计算协方差矩阵并求解其特征值与对应的特征向量; 3. 将原始数据投影到由前k个最大特征值所对应的方向上形成的新空间中;这里k小于等于原有属性数量,并且是由使用者指定的一个参数来决定最终输出的数据大小[^2]。 ```python from sklearn.decomposition import PCA import numpy as np # 创建一个随机数组作为示例输入数据 X = np.random.rand(100, 5) pca = PCA(n_components=2) # 设置目标数为2 reduced_X = pca.fit_transform(X) print(reduced_X.shape) # 输出形状应接近 (100, 2),表示已至二 ``` ### SVD奇异值分解的应用及其特性 奇异值分解(Singular Value Decomposition, SVD)可以应用于任何实数或复数值矩阵A,将其分解成三个矩阵UΣV^T的形式。其中U是一个m×m阶酉矩阵,Σ是对角线上含有非负元素σi(i=1,...,r)(称为奇异值)r≤min(m,n)其余位置全零构成的半正定对角阵,V是n×n阶酉矩阵。SVD不仅限于方形矩阵,对于矩形矩阵同样适用[^1]。 在实际应用场景下,比如图像压缩、自然语言处理等领域,SVD能够有效地提取出最重要的信息部分而忽略掉那些相对次要的内容,从而达到简化模型结构的目的。 ### PCA与SVD之间的关系及差异 尽管两者都涉及到矩阵运算以及寻找最优子空间的任务,但是它们之间存在一些显著的区别: - **理论基础不同**: PCA基于协方差矩阵的最大化方差原则选取最佳基底方向;而SVD则是直接针对给定矩阵本身进行因式分解得到的结果。 - **适用范围有所区别**: 当样本数目远大于特征数目时,采用中心化的数据矩阵做SVD等价于对协方差矩阵实施EVD(Eigenvalue Decomposition),此时二者效果相同;但在其他情况下可能会表现出不同的性能特点. - **计算效率方面**: 对大规模稀疏矩阵而言,SVD可能更具有优势因为它不需要显式的构建完整的协方差矩阵就可以完成近似低秩逼近. 综上所述,虽然PCA和SVD有着紧密联系,但各自拥有独特的特性和优劣之处,具体选择取决于待解决问题的具体情况和个人偏好等因素。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值