连续变量怎样压缩?
连续变量压缩的基本思路为:建模之前使用主成分、因子分析或变量聚类的方法进行变量压缩,后续建模时使用向前法、向后法、逐步法或全子集法进一步进行变量细筛。虽然方法的名称叫做变量聚类,但却并不是聚类分析,而是一种主成分分析的方法。

连续变量压缩的原则为:自变量间相关程度越低越好,这样会更加符合模型的假定,故需利用变量聚类的方法去降低变量间的相关性。
变量聚类是数据建模过程中标准的变量选择流程,只要做变量选择,都需要做变量聚类。不仅仅是回归模型需要变量聚类,聚类分析中同样也需要进行变量聚类。要清楚的是,变量聚类并不是回归模型的附属,它做的只是变量的选择。
&nb

本文探讨了在数据建模过程中如何通过变量聚类来压缩连续变量,强调了降低变量间相关性的重要性。介绍了主成分分析作为变量聚类的常用方法,并分享了在大量变量时如何选择适合的筛选方法,如逐步法。此外,还讨论了如何从聚类中选择代表性的变量,并提到了SAS的varclus过程步。
最低0.47元/天 解锁文章
2182

被折叠的 条评论
为什么被折叠?



