- 根据规则集来分类
- 分类规则的质量用覆盖率和准确率来度量
- 覆盖率=触发规则r的记录/所有记录
- 准确率=触发规则r且类标号正确的记录/触发规则r的记录
- 基于规则的分类器所产生的规则集的两个重要性质:
- 互斥规则:规则集中不存在两条规则被同一个记录触发
- 穷举规则:对属性值的任意组合,规则集中都有一条规则可以覆盖
- 两个规则共同作用的规则集,保证一条记录有且仅有被一条规则覆盖;当然,很多分类器是不满足的,所以加入默认类(rd:()->yd,yd是没被规则集覆盖的记录的多数类)
- 规则集不是互斥时:
- 有序规则:规则集中的规则按照优先级降序排列,有序的规则集即决策表(规则秩由高到低排列)
- 无序规则:允许记录触发多条规则,把记录指派给多数类(有时规则会加权)
- 有序规则建模开销大且需要维护,无序规则则需要将记录和每一个规则进行比较
- 接下来都是有序规则的基于规则的分类器:
- 两种规则的排序方案:
- 基于规则的排序方案:保证每一个记录都是由覆盖它的最好的规则来分类的,潜在的问题就是秩越低越难解释,因为只有排在该规则前面的规则不成立才能到这里
- 基于类的排序方案:属于同一类的规则集排在一起,同一类的规则之间排序并不重要,因为他们只要触发一个就能确定类;基于规则的分类器(如C4.5规则和RIPPER)都采用基于类的排序方案(下面的基础)
- 建立基于规则的分类器的两种方法:
- 直接方法:直接从数据中提取分类规则;把属性空间划分为较小的子空间,使属于一个子空间的所有记录可以被分类
- 间接方法:从其他分类模型(决策树、神经网络)中提取分类规则;为较为复杂的分类模型提供简介的描述
- 两种规则的排序方案:
第五章(1) 分类:基于规则的分类器
最新推荐文章于 2025-07-15 10:09:39 发布