主成分分析的(Principal Components Analysis,PCA)多角度解析

本文探讨了PCA算法在图像处理中的应用,包括图像去噪、压缩及特征提取等方面,并详细阐述了PCA算法的数学原理及其求解过程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1.问题的提出

PCA算法作为经典的机器学习算法,从提出到如今的几十年历史中,其所蕴含的思想一直伴随着机器学习算法的发展。这里我们从不同的角度探讨PCA能够图像用于的图像去噪、压缩和特征提取的数学原理和所包含的的物理含义。例如:(1)为何PCA对包含较小方差的高斯噪声图像具有较好去噪能力?(2)RPCA为何能够改进PCA在去噪时的缺陷?(3)为何PCA采用样本的协方差矩阵的前k个特征向量矩阵构造投影空间?

(1)特征提取
随着互联网的普及,人们所接触的数据量正以成千上万的倍数增长,自然而然产生了一个问题,在海量数据面前,我们能如何提取出关键的信息用以减少所需处理数据量,提升效率。以淘宝平台上品牌手机日记录数据为例:

手机品牌 浏览量 访客数 下单数 成交数 成交金额
华为 N1
F1X1C1J1
小米N2F2X2C2J2
iphoneN3F3X3C3J3
三星N4F4X4C4J4
魅族N5F5X5C5J5

从表中可知,下单数、成交数和成交金额,浏览量和访客量为强相关。于是上述5维的数据能够利用2维的数据较为准确的表示出来,PCA通过空间投影的方法解决了上述问题。
(2)图像去噪
加性噪声定义式:

L = A + E(1)

其中,L为污染图,A为纯净图,且为low-rank矩阵,E为噪声图像,且为稀疏矩阵。

PCA算法去噪的目标模型为:

minALA22s.trank(A)k(2)

通过优化目标函数,获得去噪图像。值得一提的是噪声矩阵E中的元素的分布必须是方差较小的高斯分布,即噪声矩阵为高斯矩阵。此处存在两个疑问:在利用PCA算法用于去噪时(1)为何噪声矩阵的方差较小,(2)为何噪声矩阵必须为高斯矩阵,都将会在下文中一一解释。

2.PCA的求解过程

步骤一:提取多幅图像的特征向量,组合而成特征矩阵Y=(y1,y2,,yn)Rm×n

步骤二:获得特征矩阵Y的协方差矩阵M,将协方差矩阵进行特征值分解,并提取按从大到小排序的特征值所对应的前k个特征向量组成特征向量矩阵PRn×k

步骤三:将特征矩阵Y向特征向量矩阵P张成的投影空间中投影,获得投影特征XRm×k,即X=YP,k<<n.

由上述步骤可知获得投影特征X的维数远远小于特征矩阵Y的维数。从特征提取的角度来看,可以认为PCA算法提取出了特征矩阵Y中其主要贡献的信息(通过特征值大小衡量),从图像去噪的角度看,PCA算法提取出了主要信息而忽略的信息可以认为是噪声。

PCA算法的求解关键在于投影空间的选取,即投影矩阵的获得,于是我们会有疑问:为什么选择样本协方差矩阵的特征向量构造投影矩阵?首先,我们知道投影空间选取的一般原则可归纳为:(1)投影特征在投影空间中应尽可能的分散,相似性较低,以保证投影特征包含更充分的信息,同时也能降低投影矩阵的维数;(2)投影矩阵应与原特征矩阵尽可能的接近,以减少信息的丢失。基于上述原则 PCA算法可以从最大方差理论,PCA算法的最小平方误差理解,继而推导出投影矩阵的最优形式(为了直观与方便,下文以二维情况为例进行讲解)。

3.PCA的最大方差理论解释

信号处理中认为信号具有较大的方差,噪声有较小的方差。


特征分布图


L1投影图


这里写图片描述

添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值