数据挖掘中的特征处理、集成学习与决策树成本不确定性研究
在数据挖掘领域,特征处理、集成学习以及决策树的成本与不确定性研究是非常重要的课题。下面将详细介绍相关的技术和方法。
1. 数据预处理与合成特征
在数据预处理阶段,经过一系列转换和处理,得到了两个完全数值化的矩阵,分别用于训练和测试,每个矩阵有 35 个特征且无缺失值。
考虑 4 个特征:VehicleAge(离散)、VehOdo、VehBCost 和 WarrantyCost(后三个为连续)。对于连续特征,可使用移动平均法,对按所选特征排序的目标变量向量进行研究。发现“get kicked”概率是 VehOdo(V15)和 WarrantyCost(V36)的增函数,是 VehBCost(或任何其他与成本相关变量)的减函数。基于此,可定义新的合成变量:
[f_{new} = \frac{V23}{(1 + C_1V36)(C_2 + V15 + C_3V6)}]
其中非负参数 (C_i)((i = 1, \cdots, 3))通过专门设计的 Matlab 软件进行优化,以最大化对应移动平均的多样性。系数 (C) 有两组值,如下表所示:
| (C_1) | (C_2) | (C_3) |
| ---- | ---- | ---- |
| 0 | 267 | 14354 |
| 9.8 | 333 | 9229 |
此外,还使用了第三个合成变量:
[f_{new}^{(3)} = \frac{V23 + C_4V34}{(C_5 + V36)}]
其中 (C_4 = 1.49),(C_5 = 173)。