一、C4.5算法的简介
1993年由Quilan提出的C4.5算法(对ID3的改进)
C4.5比ID3的改进:
1) 用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足;
2)能够完成对连续属性的离散化处理;
3)能够对不完整数据进行处理;
4)在树构造过程中进行剪枝。
C4.5算法优点:产生的分类规则易于理解,准确率较高。
C4.5算法缺点:在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效。
与ID3不同,C4.5采用基于信息增益率(information Gain Ratio)的方法选择测试属性,信息增益率等于信息增益对分割信息量的比值。
GainRatio(S,F)=Gain(S,F)/SplitInformation(S,F)
设样本集S按离散属性F的V个不同的取值划分为,共V个子集
&nbs

C4.5算法是Quilan在1993年提出的,作为ID3的改进版,它使用信息增益率选择属性,能处理连续属性和不完整数据。算法主要步骤包括:选择信息增益率最高的属性进行划分,对连续属性进行离散化,处理属性值缺失问题,并通过预剪枝和后剪枝防止过拟合。C4.5的优点是易于理解和准确率高,但效率较低。
最低0.47元/天 解锁文章
807

被折叠的 条评论
为什么被折叠?



