数据挖掘之降维

最新推荐文章于 2024-09-12 14:19:58 发布

转载最新推荐文章于 2024-09-12 14:19:58 发布 · 2.3k 阅读

数据挖掘专栏收录该内容

17 篇文章

订阅专栏

本文探讨了在数据挖掘过程中自变量维度过多带来的问题，并介绍了几种简单有效的变量选择方法，包括基于不同类型的因变量（二分变量、分类变量、数值变量）的变量筛选策略及逐步选择方法。

自变量维度过多会给所有数据挖掘方法带来麻烦：（1）自变量过多会导致建模算法的运行速度慢。（2）自变量的维度增加时，过度拟合的可能性也会随之增大。（3）自变量维度越多，数据在整个输入空间的分布越稀疏，越难以获得对整个输入空间有代表性的样本。例如，如果只有一个均匀分布的二分自变量，那么1000个观测意味着平均每种取值对应于500个观测；但如果有10个均匀分布的二分自变量，总共有210=1024种取值，同样1000个观测却意味着平均而言每种取值对应于不到1个观测。

变量选择是降维的一类方法，它们从自变量中选出一部分放入建模数据集。下面按因变量的类型分别介绍一些简单的变量选择方法。

（一）一些简单的变量选择方法

1.因变量为二分变量（1）对于数值自变量而言，可以使用两样本t检验考察因变量取一种值时自变量的均值与因变量取另一种值时自变量的均值是否相等，然后选择那些检验结果显著（不相等）的自变量；（2）对于分类自变量而言，可以使用卡方检验考察自变量的取值是否独立于因变量的取值，然后选择那些检验结果显著（不独立）的自变量。

2.因变量为分类变量当因变量为分类变量时，可以将其取值两两配对，针对每对取值进行上述t检验或者卡方检验，然后选择那些对因变量的任何一对取值检验结果显著的自变量。

3.因变量为数值变量当因变量为数值变量时，可以将因变量离散化后（例如，使用因变量的中位数将数据分为两组）再使用上面的方法，或者使用如下方法：

（1）计算各数值自变量与因变量的相关系数，剔除相关系数小或不显著的变量。

（2）对每个分类自变量，将其取值两两配对，针对每对取值使用t检验考察因变量的均值是否相等，只要对任何一对取值检验结果显著，就选择该自变量。

（二）逐步选择

逐步选择也是一类常用的变量选择方法，逐步回归就是它的一个特例。首先，使用以下三种方法之一逐步建立一系列的模型，在这一过程中使用的数据集都是训练数据集。

1.向前选择（forwardselection）从不含有任何自变量的零模型开始，逐个从模型外选择最能帮助预测因变量的自变量加入模型，直至模型外的任何一个自变量对于预测因变量的贡献值都低于某个临界值，或者模型中已经包含所有的自变量；2.向后剔除（backwardelimination）从含有所有自变量的全模型开始，逐个从模型中剔除对预测因变量贡献最小的自变量，直至模型内的任何一个自变量对于预测因变量的贡献值都高于某个临界值，或者模型中不含有任何自变量；3.向前选择与向后剔除的结合这是对以上两种方法的修正，从零模型开始，每次给模型添加一个新的自变量后，就对模型中所有自变量进行一次向后剔除的检查，直至所有已经在模型中的自变量都不能被剔除，并且所有在模型外的自变量都不能被添加。

每次添加或剔除一个自变量都得到一个新的模型，这样可获得一系列模型。根据训练数据集计算AIC、BIC等统计准则的值，或者根据修正数据集评估预测效果，可从这一系列模型中选择最优的模型。