第五章(1) 分类:基于规则的分类器

本文介绍了基于规则的分类器,包括其工作原理、质量度量(覆盖率和准确率)、规则集的性质(互斥和穷举)以及如何处理非互斥规则。详细讲解了有序和无序规则,以及两种排序方案:基于规则和基于类的排序。讨论了直接和间接的规则提取方法,如顺序覆盖算法、learn-one-rule、规则增长策略(一般到特殊和特殊到一般)以及规则剪枝。RIPPER算法作为示例,展示了规则归纳过程。最后,提到了决策树生成规则的方法,并指出基于规则的分类器在生成易于解释模型方面的优势。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

  1. 根据规则集来分类
  2. 分类规则的质量用覆盖率和准确率来度量
    1. 覆盖率=触发规则r的记录/所有记录
    2. 准确率=触发规则r且类标号正确的记录/触发规则r的记录
  3. 基于规则的分类器所产生的规则集的两个重要性质:
    1. 互斥规则:规则集中不存在两条规则被同一个记录触发
    2. 穷举规则:对属性值的任意组合,规则集中都有一条规则可以覆盖
    3. 两个规则共同作用的规则集,保证一条记录有且仅有被一条规则覆盖;当然,很多分类器是不满足的,所以加入默认类(rd:()->yd,yd是没被规则集覆盖的记录的多数类)
    4. 规则集不是互斥时:
      1. 有序规则:规则集中的规则按照优先级降序排列,有序的规则集即决策表(规则秩由高到低排列)
      2. 无序规则:允许记录触发多条规则,把记录指派给多数类(有时规则会加权)
      3. 有序规则建模开销大且需要维护,无序规则则需要将记录和每一个规则进行比较
  4. 接下来都是有序规则的基于规则的分类器:
    1. 两种规则的排序方案:
      1. 基于规则的排序方案:保证每一个记录都是由覆盖它的最好的规则来分类的,潜在的问题就是秩越低越难解释,因为只有排在该规则前面的规则不成立才能到这里
      2. 基于类的排序方案:属于同一类的规则集排在一起,同一类的规则之间排序并不重要,因为他们只要触发一个就能确定类;基于规则的分类器(如C4.5规则和RIPPER)都采用基于类的排序方案(下面的基础)
    2. 建立基于规则的分类器的两种方法:
      1. 直接方法:直接从数据中提取分类规则;把属性空间划分为较小的子空间,使属于一个子空间的所有记录可以被分类
      2. 间接方法:从其他分类模型(决策树、神经网络)中提取分类规则;为较为复杂的分类模型提供简介的描述
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值