变量子集选择:过滤、包装与嵌入方法详解
1. 变量子集选择概述
变量子集选择是在机器学习模型中挑选特征子集的过程。此前,我们尝试通过变量的个体排名来创建变量子集,但发现特征排名作为变量选择方法存在局限性。接下来,我们将正式介绍变量子集选择的过程,并结合信用损失数据进行示例说明。
变量选择方法主要分为过滤(Filter)、包装(Wrapper)和嵌入(Embedded)三类,下面将分别详细介绍。
2. 过滤方法(Filter Method)
过滤方法利用变量的内在属性,而不考虑具体的机器学习方法。该方法适用于每个变量都能增加分类能力的分类问题。
2.1 过滤方法的相关信息
项目 | 详情 |
---|---|
标准 | 衡量特征/特征子集的“相关性” |
搜索 | 按单个特征排名或特征嵌套子集对特征进行排序 |
评估 | 使用统计测试 |
统计方法 | 信息增益、卡方检验、Fisher 分数、相关系数、方差阈值 |
结果 | 相对更能抵抗过拟合,但可能无法选择最“有用”的特征集 |