为什么PCA不被推荐用来避免过拟合

最新推荐文章于 2024-11-14 20:44:32 发布

嘀嗒嘀嘀嗒嘀

最新推荐文章于 2024-11-14 20:44:32 发布

阅读量1.5k

点赞数

分类专栏：深度学习

深度学习专栏收录该内容

13 篇文章

订阅专栏

本文探讨了PCA在高维数据环境中作为降维技术的应用，特别是在人脸识别领域的早期研究中。通过对比eigenface和fisherface等方法，文章揭示了PCA在解决过拟合问题的同时可能带来的欠拟合问题，并讨论了其作为无监督学习方法的优势与局限。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

作者：戴玮
链接：https://www.zhihu.com/question/47121788/answer/121838673
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

PCA是高维环境下能想到的最直接的方案。比如人脸识别，维度往往成千上万，但识别身份的话，每个人样本最多也就几十，过拟合现象是很严重的。

由此产生了人脸识别早期研究中影响力极大的工作eigenface，其实就是先用PCA对人脸图像进行降维，然后再训练分类器。但PCA是无监督的，正如Andrew所说：“it does not consider the values of our results y”。所以它虽然能解决过拟合问题，但又会带来欠拟合问题。

拿人脸识别来说，eigenface虽然能训练出识别能力尚可的分类器，但因为分类信息并不一定存在于前几个主成分上，所以用前几个主成分来做分类的话，会丢失后面变化细微的主成分上存在的大量分类信息。正因为如此，之后又出现了fisherface等有监督降维工作，识别能力也因此提高了很多。

深度学习也是这样，pre-training阶段很多训练都是无监督的，其实和PCA异曲同工，但之后一定要有进一步的fine-tuning，把无监督提取出来的特征transfer到我们的目标任务上，这样得到的特征才真正work。

所以说，类似于PCA和auto-encoder这样的无监督方法，提取的特征不会太差、但也不会太好，它最大的作用，是总结出一些关于X的较高层次的抽象知识、为之后的有监督训练提供一个比原始特征空间更好的起点。

实际上，无监督最具优势之处，就在于它的通用性：不管y是什么，只要有X就行，之后可以在各种各样的y上进一步训练。有证据显示，人类在婴儿时期也是先有一个无监督学习阶段，然后才是各种有监督学习。