分治法:使用决策树和规则进行分类
1. 规则生成的基本方法
在规则生成的增长阶段,采用分治策略,不断贪婪地为规则添加条件,直到能完美分类数据子集或没有更多属性可用于划分。与决策树类似,使用信息增益准则来确定下一个划分属性。当增加规则的特异性不再降低熵时,立即对规则进行剪枝。重复这些步骤,直到达到停止准则,此时使用各种启发式方法对整个规则集进行优化。
RIPPER 算法比 1R 算法能创建更复杂的规则,因为它可以考虑多个特征。例如,它能创建具有多个前提的规则,如“如果动物会飞且有毛发,那么它是哺乳动物”。这提高了算法对复杂数据的建模能力,但也可能使规则变得难以理解。
2. 从决策树生成规则
分类规则也可以直接从决策树中获取。从叶节点开始,沿着分支回溯到根节点,就能得到一系列决策,这些决策可以组合成一条规则。以预测电影成功的决策树为例,从根节点到每个叶节点的路径可以生成以下规则:
1. 如果名人数量少,那么电影将是票房惨败。
2. 如果名人数量多且预算高,那么电影将是主流热门。
3. 如果名人数量多且预算低,那么电影将是口碑成功。
使用决策树生成规则的主要缺点是,生成的规则通常比规则学习算法学习到的规则更复杂。决策树采用的分治策略与规则学习器的分治策略对结果的影响不同。不过,从树中生成规则有时在计算上更高效。
3. 决策树和规则学习器的贪婪特性
决策树和规则学习器被称为贪婪学习器,因为它们按先来先服务的原则使用数据。决策树使用的分治启发式和规则学习器使用的分治启发式都试图一次进行一次划分,先找到最均匀的划分,然后是次优的划分,依此类推,直到所有示例都被分类。
超级会员免费看
订阅专栏 解锁全文
17

被折叠的 条评论
为什么被折叠?



