python sklearn PCA源码阅读：参数n_components的设置（设为‘mle’出错的原因）

最新推荐文章于 2024-06-16 12:33:12 发布

转载最新推荐文章于 2024-06-16 12:33:12 发布 · 1.7k 阅读

5 ·

CC 4.0 BY-SA版权

原文链接：http://www.cnblogs.com/bambipai/p/7787854.html

文章标签：

#人工智能 #python

本文通过解决在使用PCA进行主成分分析时遇到的错误出发，详细解释了n_components参数的设置方法及其与svd_solver参数的关系。文章还介绍了如何根据不同场景正确配置这两个参数。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

　　在介绍n_components参数之前，首先贴一篇PCA参数详解的文章：http://www.cnblogs.com/akrusher/articles/6442549.html。

　　按照文章中对于n_components的介绍，我对一个1000x9000的array进行了主成分分析，n_components选择为"mle“，即自动选择（因为刚接触PCA，并不知道咋设置( ˇˍˇ )），尝试几次，每次都会报出下面的错误.

　　百思不得其解，终于通过阅读源码找到了原因。

就是因为svd_solver同样设置为了自动选择‘auto’，而它在选择的过程中，需要比较n_components，1,0.8*min（X.shape）的大小关系，所以会报错，所以n_components该如何设置？

n_components的设置与参数svd_solver的设置是相关联的，而它们的设置又都跟输入数据x的维度相关，通过阅读源码和说明文档总结如下。

　　svd_solver的设置有四种情况：'auto'，'fill'，'arpack'，'randomized'，自动选择 'auto'的选择机制如下： x.shape>500 并且 1<=n_components<0.8*min(x.shape)时，svd_solver=‘randomsize'，否则，svd_solver=’full‘。

　　n_components是要保留的成分，int 或者 string，缺省时默认为None，所有成分被保留，但是这三种设置并不适用于所有情况，下面的表格说明了两个参数之间的关联：

表格说明了n_components设置为‘mle’或整数时需要满足的条件，其中，“No”表示不能设置为该值。所以我们看到，只有输入数据的样本数多于特征数，并且svd_solver设置为‘full'时，才可以将n_components设置为’mle'；同时注意当svd_solve设置为‘arpack’时，保留的成分必须少于特征数，即不能保留所有成分。另外，当n_components缺省时，所有成分被保留，最终保留的成分数为min(sample,features)，原理在这里不做说明。

转载于:https://www.cnblogs.com/bambipai/p/7787854.html