7、决策树诱导：离散化与剪枝方法解析

雪落无声360

于 2025-10-15 15:29:04 发布

阅读量20

点赞数

CC 4.0 BY-SA版权

分类专栏：多媒体数据挖掘探秘文章标签：决策树离散化剪枝

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/agile9scrum/article/details/153761295

多媒体数据挖掘探秘专栏收录该内容

15 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

决策树诱导：离散化与剪枝方法解析

1. 决策树诱导中的离散化

1.1 连续属性的离散化

1.1.1 基于熵的切割点选择

在决策树诱导过程中，对于连续属性，需要确定合适的切割点将样本集划分为子集。对于每个可能的切割点 (T) 进行测试，选择满足以下条件的切割点 (T_A)：
[
\min_{T} I(A, T_A; S)
]
其中 (S) 是子样本集，(A) 是属性，(T) 是将样本划分为子集 (S_1) 和 (S_2) 的切割点。(I(A, T_A; S)) 是样本集划分为子集 (S_1) 和 (S_2) 的熵，计算公式如下：
[
I(A, T_A; S) = \frac{|S_1|}{|S|}I(S_1) + \frac{|S_2|}{|S|}I(S_2)
]
其中
[
I(S_i) = - \sum_{j = 1}^{m} p(S_i, C_j) \log_2 p(S_i, C_j)
]
计算切割点通常是一个耗时的过程，因为需要对每个可能的切割点进行选择标准的测试。为了加快计算速度，已有相关算法被提出。

1.1.2 基于类间和类内方差的离散化

还可以通过无监督离散化来找到阈值。将该问题视为一维空间中的聚类问题，使用两个子集 (S_1) 和 (S_2) 的类间方差 (s_B^2) 与类内方差 (s_w^2) 的比值作为寻找阈值的标准：
[
s_B^2 = P_0(m_0 - m)^2 + P_1(m_1 - m)^2
]
[
s_w^2 = P_0 s_0^2

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。