顺序覆盖方法的规则归纳:搜索机制、评估与剪枝
在数据挖掘领域,规则归纳是一项重要的任务,顺序覆盖方法是实现规则归纳的一种有效途径。下面将详细介绍顺序覆盖方法中规则归纳的搜索机制、规则评估以及规则剪枝等关键内容。
1. 搜索机制
规则归纳算法如同搜索算法,在候选规则空间中探索,其搜索机制由搜索策略和搜索方法两部分组成。
- 搜索策略 :决定搜索空间的起始区域和方向,主要有自底向上、自顶向下和双向搜索三种。
- 自底向上策略 :从非常具体的规则开始,逐步进行泛化。例如,RISE算法将训练集中的所有示例视为非常具体的规则,然后为每个规则寻找同类的最近示例,并尝试泛化规则以覆盖该示例。
- 自顶向下策略 :从最通用的规则开始,逐步进行特化。最通用的规则是覆盖训练集中所有示例的规则(因为其前件为空,对任何示例都满足)。不过,该策略在归纳过程中,用于评估候选规则的数据量会急剧减少,导致发现的规则统计可靠性降低,易出现数据过拟合和小析取问题。可以通过在训练集示例数量低于阈值时停止构建规则,或采用剪枝方法来防止过拟合。
- 双向搜索策略 :允许对候选规则进行泛化或特化,这种方法不太常见,但在SWAP - 1和Reconsider and Conquer算法中有所应用。
- 搜索方法 :确定在每个特化或泛化步骤中应考虑哪些特化或泛化。常见的搜索方法有贪心搜索和束搜索。
- 贪心搜索 :创建初始规则,对其进行特化或泛化,评估扩展后的规则
超级会员免费看
订阅专栏 解锁全文
22

被折叠的 条评论
为什么被折叠?



