Stanford大学第八周学习笔记

原创于 2017-06-22 09:22:38 发布 · 485 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

Machine Learning 专栏收录该内容

56 篇文章

订阅专栏

本文探讨了主成分分析（PCA）的应用场景，包括提高算法效率、数据压缩及可视化，并指出PCA不应用于解决过拟合问题，建议使用正则化方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

我已经提到过 PCA 有时可以用来提高机器学习算法的速度

在本节课的视频中讲解如何在实际操作中来实现同时列举一些例子只是希望能够提供一些应用 PCA 的建议

首先我先介绍如何通过 PCA 来提高学习算法的速度这种监督学习算法的提速实际上也是我个人经常通过使用 PCA 来实现的一种功能比如说你遇到了一个监督学习问题注意这个监督学习算法问题有输入 x 和标签 y 假如说你的样本 x(i) 是非常高维的数据比如说 x(i) 是一个10,000维的向量

比如说其中的一个例子是你在解决某个计算机视觉的问题在这里有一张100 × 100的图片那么如果是100×100 那就是10000 像素如果 x(i) 是包含了这10000像素强度值的特征向量那么你就会有10000维特征向量

像这样有很高维的特征向量运行会比较慢如果你输入10,000维的特征向量到逻辑回归中或者到一个神经网络、支持向量机中或者任何别的算法中由于这是一个很大量的数据集有10,000个数据

因此这会使得学习算法运行得更慢

幸运的是通过使用 PCA 我们能够降低数据的维数从而使得算法能够更加高效地运行这就是其中的原理首先我们需要检查带标签的的训练数据集并提取出输入数据我们只需要提取出 x 并暂时把 y 放在一边这一步我们会得到一组无标签的训练集从 x(1) 到 x(m) 这可能会有 10,000维数据也就是10,000维数据样本所以就是从数据组中

x(1) 到 x(m) 中提取出输入向量

然后我们应用PCA 从中我们会得到一个降维的数据与刚才的 10,000维特征相比我现在就只有1000维特征向量因此这就降低了10倍的维数

这就给了我们一个新的训练集所以之前我有这样一个样本 x(1), y(1) 这是我的第一个训练集的输入现在用 z(1) 来表示这样我们就有了一个新的训练集样本

其中 z(1) 与 y(1) 是一对儿

同样地 z(2) 对应 y(2) 等等一直到 z(m) 对 y(m) 因为现在的训练集由这样一个更加低维的数据集所代替 z(1),z(2) 一直到 z(m) 最后我可以将这个

已经降维的数据集输入到学习算法或者是将其放入到神经网络中或者是逻辑回归中可以学习出假设 h 把这个作为输入这些低维的 z 作为输入并作出预测

所以比如说在使用逻辑回归时我应该训练得到某一个假设函数其输出是 1除以1加e的负的θ次方转置

乘以 z 这个式子将 z 向量作为输入并得出一个预测值

最后如果你有一个新的样本比如说一个新的测试样本 x 你所要做的是将你的测试样本 x

通过同样的过程操作下来通过 PCA 你会得到所对应的 z 然后这个 z 值又可以输入到这个假设式子中这个假设之后会对你输入的 x作出一个预测

最后要注意一点 PCA 定义了从 x到z的对应关系这种从 x 到 z的对应关系只可以通过在训练集上运行 PCA 定义出来具体来讲这种 PCA所学习出的对应关系所做的就是计算出一系列的参数这就是特征缩放和均值归一化同时也计算出这样一个降维的矩阵Ureduce 但是降维矩阵 Ureduce 中的数据就像一个 PCA所学习的参数一样我们需要使我们的参数唯一地适应这些训练集而不是适应我们的交叉验证或者测试集因此Ureduce矩阵中的数据就应该只通过对训练集运行PCA来获得找出了降维矩阵Ureduce 或者找出了这些特征扩展的参数之后均值均一化并扩展可以用分隔可以比较的规格在训练集中找到了所有这些参数后就可以将同样的对应关系应用到其他样本中了可能是交叉验证数集样本或者用在你的测试数据集中总结一下当你在运行PCA的时候只是在训练集那一部分来进行的而不是交叉验证的数据集这就定义了从 x到z的映射然后你就可以将这个映射应用到交叉验证数据集中和测试数据集中通过这个例子中的这种方式我们讨论了将数据从上万维降到千维这实际上并不切实际因为对于大多数我们实际面对的数据降维问题

降维到原来的五分之一或者十分之一依旧保持着原本维度数据的变化情况改变并不会有多少影响

就分类的精确度而言数据降维后对学习算法几乎没有什么影响如果我们将降维用在低维数据上我们的学习算法会运行得更快总之迄今为止我们讨论过的有关PCA的应用中

第一个是数据压缩我们可以借此减少内存或者磁盘空间的使用以存取更多的数据正如刚刚我们讨论过的就是如何使用数据压缩以加快学习算法的例子在这些应用中为了选择一个k值我们将会根据保留方差的百分比来确定k值对于一个学习算法来说加快应用将会保留99%的方差在如何选择k值的问题上这就是一个很典型的问题也就是说k的选择是一个数据压缩的应用

然而对于可视化应用来说

我们通常知道如何将二维或者三维的数据进行可视化

所以对于可视化应用我们选择的K值要么等于2 要么等于3 因为我们能画出二维和三维的数据集

所以我们来总结一下PCA的主要应用其实也就是对于不同的应用来选择K值

我要提醒的是有一个频繁被误用的PCA应用你有时或许能听到其他人这么做当然我们不希望这样我只是想提醒你不要这么做这是一个对PCA不好的应用方面那就是使用它来避免过拟合

下面是原因

这并不是一个合适的PCA应用下面我就来讲原因如果我们有x(i) 或许x(i)是有n个特征的数据集如果我们将数据进行压缩并用压缩后的数据z(i)来代替原始数据在降维过程中我们从n个特征降维到k个比先前的维度低例如如果我们有非常小的特征数目假如k值为1000 n值为10000 如果我们有1000维度的数据和我们用10000维度的数据比起来对于同样是1000个特征来说

或许更不容易过拟合所以有些人认为 PCA是一种避免过拟合的方法但我这里要强调一下 PCA在过拟合问题上的应用是不合适的并且我不建议这么做不仅仅这个方法的效果很差如果你想使用 PCA方法来对数据降维以避免过拟合 PCA方法实际看起来是可以的但是这并不是一个用来解决过拟合问题的算法如果你比较担心过拟合问题有更好的方法来解决那就是使用正则化方法代替PCA来对数据进行降维原因是

如果你仔细想想PCA是如何工作的它并不需要使用数据的标签你只需要看好输入数据x(i) 同时使用这个方法来寻找更低维度的数据近似那么 PCA做了什么呢它把某些信息舍弃掉了

舍弃掉一些数据并在你对数据标签y值毫不知情的情况下对数据进行降维所以这或许是一个使用PCA方法的可行之路如果保留99% 的方差即保留绝大部分的方差那也就是舍弃掉某些有用信息事实证明当你在保留99% 或者95% 或者其它百分比的方差时结果表明就只使用正则化将会给你一种避免过拟合绝对好的方法

但我有时候会看到有些人把PCA用在了不应当使用的地方从中我都看到一个共同点如果某人正在设计机器学习系统他们或许会写下像这样的计划让我们设计一个学习系统得到训练集然后我要做的是先运行PCA 然后训练逻辑回归之后在测试数据上进行测试通常在一个项目的初期有些人便直接写出项目计划而不是说来试试PCA的这四步

同时是最常用的方法之一也是一种强有力的无监督学习算法通过在本视频中学到的希望你有能力实现 PCA算法并用它来实现你的目的

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。