分类变量的水平一定要压缩
模型中分类变量一般需要处理成0-1形式的哑变量。
如果变量水平本身较多,那么哑变量的水平个数也会相应变多,这种情况下去构建模型肯定不行,需要将分类变量的水平进行压缩处理。
分类变量水平压缩的方法
一般情况,分类变量水平压缩有下面两种方法,这一篇先说说我对哑变量编码法的理解:
- 哑变量编码法;
-
基于目标变量的WOE转换法;
本文探讨了在建模中处理分类变量时遇到的水平过多问题,提出分类变量水平压缩的重要性,以避免多重共线性和过度拟合。主要介绍了两种方法:哑变量编码法和基于目标变量的WOE转换法。强调了变量压缩的原则,即保留变异性,避免过度拟合。并通过实际案例解释了如何进行变量水平的合并,以优化模型构建。
分类变量的水平一定要压缩
模型中分类变量一般需要处理成0-1形式的哑变量。
如果变量水平本身较多,那么哑变量的水平个数也会相应变多,这种情况下去构建模型肯定不行,需要将分类变量的水平进行压缩处理。
分类变量水平压缩的方法
一般情况,分类变量水平压缩有下面两种方法,这一篇先说说我对哑变量编码法的理解:
基于目标变量的WOE转换法;
404
1861
1756

被折叠的 条评论
为什么被折叠?