分类:决策树—— 对连续属性进行“二元转化”划分,根据增益量公式求最佳划分点

该篇博客介绍了如何使用决策树算法处理连续属性。通过将连续属性转化为二元属性,遵循特定步骤:排序、设定划分点、计算不纯性度量和增益,最终找到使增益最大的最佳划分点。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

算法:将连续属性划进行“二元转化”的指导思想是在连续属性的范围值中选定一个值,将属性集划分为小于等于该值和大于该值的二元属性;

假设属性对应了N个记录。

1、将列表根据属性值递增排序;

2、将数据集划分为N+1个区间,对应N+1个划分点,中间N-1个划分点的计算方法为N-1对两两相邻记录属性值的算法平均值,第一个划分点为第一个记录的属性值-1,最后一个划分点为最后一个记录的属性值+1;

3、根据“不纯性度量”计算方法和增益公式分别计算N+1个划分点划分后的不纯性度量值;

4、使得增益最大(即划分后不纯性最小)的划分点即为最佳划分点。

样例数据集:

python list [(70,'n'), (75,'n'), (85,'y'),(60,'n'),(95,'y'),(90,'y'),(100,'n'),(220,'n'),(125,'n'),(120,'n')],
列表元素表示的元组第一项为属性值,第二项为该属性所在记录所属的分类。


样例实现:

'''
Created on Aug 14, 2013

@author: wayne
'''
from numpy import *

test_set = [(70,'n'), (75,'n'), (85,'y'),(60,'n'),(95,'y'),(90,'y'),(100,'n'),(220,'n'),(125,'n'),(120,'n')]

dataset_len = len(test_set)
'''how to access element in a list with tuple
print "len of test set: ", dataset_len
print "test_set 0: ",test_set[0]
print "test_set 9 0: ",test_set[9][0]
print "test_
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值