算法:将连续属性划进行“二元转化”的指导思想是在连续属性的范围值中选定一个值,将属性集划分为小于等于该值和大于该值的二元属性;
假设属性对应了N个记录。
1、将列表根据属性值递增排序;
2、将数据集划分为N+1个区间,对应N+1个划分点,中间N-1个划分点的计算方法为N-1对两两相邻记录属性值的算法平均值,第一个划分点为第一个记录的属性值-1,最后一个划分点为最后一个记录的属性值+1;
3、根据“不纯性度量”计算方法和增益公式分别计算N+1个划分点划分后的不纯性度量值;
4、使得增益最大(即划分后不纯性最小)的划分点即为最佳划分点。
样例数据集:
python list [(70,'n'), (75,'n'), (85,'y'),(60,'n'),(95,'y'),(90,'y'),(100,'n'),(220,'n'),(125,'n'),(120,'n')],
列表元素表示的元组第一项为属性值,第二项为该属性所在记录所属的分类。
样例实现:
'''
Created on Aug 14, 2013
@author: wayne
'''
from numpy import *
test_set = [(70,'n'), (75,'n'), (85,'y'),(60,'n'),(95,'y'),(90,'y'),(100,'n'),(220,'n'),(125,'n'),(120,'n')]
dataset_len = len(test_set)
'''how to access element in a list with tuple
print "len of test set: ", dataset_len
print "test_set 0: ",test_set[0]
print "test_set 9 0: ",test_set[9][0]
print "test_