20、数据挖掘中的特征处理、集成学习与决策树成本不确定性研究

数据挖掘中的特征处理、集成学习与决策树成本不确定性研究

在数据挖掘领域,特征处理、集成学习以及决策树的成本与不确定性研究是非常重要的课题。下面将详细介绍相关的技术和方法。

1. 数据预处理与合成特征

在数据预处理阶段,经过一系列转换和处理,得到了两个完全数值化的矩阵,分别用于训练和测试,每个矩阵有 35 个特征且无缺失值。

考虑 4 个特征:VehicleAge(离散)、VehOdo、VehBCost 和 WarrantyCost(后三个为连续)。对于连续特征,可使用移动平均法,对按所选特征排序的目标变量向量进行研究。发现“get kicked”概率是 VehOdo(V15)和 WarrantyCost(V36)的增函数,是 VehBCost(或任何其他与成本相关变量)的减函数。基于此,可定义新的合成变量:
[f_{new} = \frac{V23}{(1 + C_1V36)(C_2 + V15 + C_3V6)}]
其中非负参数 (C_i)((i = 1, \cdots, 3))通过专门设计的 Matlab 软件进行优化,以最大化对应移动平均的多样性。系数 (C) 有两组值,如下表所示:
| (C_1) | (C_2) | (C_3) |
| ---- | ---- | ---- |
| 0 | 267 | 14354 |
| 9.8 | 333 | 9229 |

此外,还使用了第三个合成变量:
[f_{new}^{(3)} = \frac{V23 + C_4V34}{(C_5 + V36)}]
其中 (C_4 = 1.49),(C_5 = 173)。

2.
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值