深度学习UFLDL教程翻译之PCA白化

最新推荐文章于 2022-06-14 05:56:06 发布

hunterlew

最新推荐文章于 2022-06-14 05:56:06 发布

阅读量4.5k

点赞数 5

CC 4.0 BY-SA版权

分类专栏：深度学习深度学习_在路上文章标签：深度学习预处理主成分分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/hunterlew/article/details/52202129

本文介绍了PCA（主成分分析）作为一种有效的降维算法，如何用于图像预处理，尤其是白化的概念和重要性。PCA通过寻找数据变化的主要方向来减少冗余，而白化则是进一步减少特征间的相关性并使所有特征具有相等方差。在自然图像处理中，PCA白化可以提高算法的效率和性能，尤其是在目标识别等任务中。文章提供了2D例子和数学背景，阐述了PCA、ZCA白化和正则化的细节。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、引入

主成分分析（PCA）是一种降维算法，能大大加速你的无监督特征学习算法。更重要的是，理解PCA能让我们后面实现白化，这是一个对所有算法适用的重要的预处理步骤。

假设你在图像上训练你的算法。不过输入稍微有点冗余，因为图像中相邻的像素值是高度相关的。具体来说，假设我们在16*16的灰度图像块上训练。那么x∈R²⁵⁶是256维的向量，一个特征xj对应着图像中每个像素强度。由于相邻像素之间的相关性，PCA使我们能够以一个维数小得多的输入来近似原输入，而造成误差极小。

二、例子与数学背景

对我们运行例子来说，我们使用数据集{x(1),x(2),…,x(m)}，输入是n=2维的，因此x(i)∈R²。假设我们想要将二维数据将为1维。（实际上，我们比如可能想要将256维数据降为50维；但在我们的例子中使用低一点的维度数据能让我们更好地可视化算法。）这是我们的数据集：

这些数据有经过预处理，因此每个特征x1和x2都有相同的均值（0）和方差。

为了阐述，我们还将每一个点着色，有三种颜色，取决于x1的值；这些颜色不是给算法用的，只是为了阐述。

PCA会寻找一个投影我们数据的较低维的子空间。

通过可视化验证数据，能看出u1是数据变化的主要方向，u2是变化的第二个方向：

即，相比u2方向，数据更多地在u1方向上变化。为了更正式地得到方向u1和u2，我们首先计算如下矩阵：

如果x有零均值，那么Σ恰好是x的协方差矩阵。（Σ符号，发音为sigma，是表示协方差矩阵的标准表示。不幸的是，它看起来就像求和的符号，和∑ⁿ_i=1i中的一样；但实际上这是两种不同的东西。）

然后就可以看出，u1——数据变化的主要方向——是Σ的第一个（主要的）特征向量，u2是第二个特征向量。

注意：如果你感兴趣于阅读关于这个结果的更正式的数学推导/证明，可以阅读CS229（机器学习）关于PCA的课程笔记。然而在这个课程中你不需要这样做。

你可以使用标准的数值线性代数软件来得到这些特征向量（看实现提示）。具体而言，让我们计算Σ的特征向量，并将特征向量按列排列，得到矩阵U：

在这里，u1是主要特征向量（对应于最大的特征值），u2是第二个特征向量，等等。另外，令λ1,λ2,…,λn为相应特征值。

在我们的例子中，向量u1和u2构成新的基，我们的数据将用其表示。具体而言，令x∈R²为一些训练样本。然后u^T₁x为x投影到向量u1的长度（量）。

同理，u^T₂x是x投影到向量u2的量。

三、旋转数据

现在，我们可以用(u1,u2)基来表示x，通过计算

最低0.47元/天解锁文章

200万优质内容无限畅学

博客等级

码龄14年

128
原创

249
点赞

797
收藏

428
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

上一篇：: 深度学习UFLDL教程翻译之自动编码器

下一篇：: 深度学习UFLDL教程翻译之自我学习

最新评论

基于verilog的曼彻斯特编译码
湫i: 博主仿真的datain默认是与时钟同步的，实际数据进来需要打拍同步，如果打两拍同步的话，曼码最小脉宽至少是2倍时钟周期才可以，也就是时钟是曼码频率的4倍
Windows下pytorch的安装与入门
优快云-Ada助手: 非常感谢优快云博主分享的关于Windows下pytorch的安装与入门的博客，我觉得这篇文章非常有用，对想要入门pytorch的用户会有很大的帮助。下一篇博客，我建议可以继续介绍pytorch的基础知识，比如常用的神经网络模型的实现以及优化器的选择等，相信会有更多读者受益。期待您的新作品！为了方便博主创作，提高生产力，优快云上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.youkuaiyun.com/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.youkuaiyun.com/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。
dsp EMIF接口
n leaf: FLASH_ADR2地址的定义有吗？应该不是0×555这样吧
red5视频直播初探
qq_41544746: 所以你讲了个寂寞
dsp EDMA学习与疑问
zhenyuanzi001: 讲得真好，学习了。不过楼主最后引用的《EDMA使用详解》，我百度了没找到，能否分享下。非常感谢啊

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。