20、数据挖掘中的特征处理、集成学习与决策树成本不确定性研究

rust6ferris

于 2025-06-23 14:45:09 发布

阅读量83

点赞数

CC 4.0 BY-SA版权

分类专栏：粗糙集理论与现代计算趋势文章标签：数据挖掘特征处理集成学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/rust6ferris/article/details/149608493

粗糙集理论与现代计算趋势专栏收录该内容

51 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

数据挖掘中的特征处理、集成学习与决策树成本不确定性研究

在数据挖掘领域，特征处理、集成学习以及决策树的成本与不确定性研究是非常重要的课题。下面将详细介绍相关的技术和方法。

1. 数据预处理与合成特征

在数据预处理阶段，经过一系列转换和处理，得到了两个完全数值化的矩阵，分别用于训练和测试，每个矩阵有 35 个特征且无缺失值。

考虑 4 个特征：VehicleAge（离散）、VehOdo、VehBCost 和 WarrantyCost（后三个为连续）。对于连续特征，可使用移动平均法，对按所选特征排序的目标变量向量进行研究。发现“get kicked”概率是 VehOdo（V15）和 WarrantyCost（V36）的增函数，是 VehBCost（或任何其他与成本相关变量）的减函数。基于此，可定义新的合成变量：
[f_{new} = \frac{V23}{(1 + C_1V36)(C_2 + V15 + C_3V6)}]
其中非负参数 (C_i)（(i = 1, \cdots, 3)）通过专门设计的 Matlab 软件进行优化，以最大化对应移动平均的多样性。系数 (C) 有两组值，如下表所示：
| (C_1) | (C_2) | (C_3) |
| ---- | ---- | ---- |
| 0 | 267 | 14354 |
| 9.8 | 333 | 9229 |

此外，还使用了第三个合成变量：
[f_{new}^{(3)} = \frac{V23 + C_4V34}{(C_5 + V36)}]
其中 (C_4 = 1.49)，(C_5 = 173)。

2.

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符 | 博主筛选后可见

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。