数据挖掘中的常见概念与算法
在数据挖掘领域,有许多重要的概念和算法,它们在不同的场景中发挥着关键作用。本文将介绍一阶回归树、形式概念分析、频繁项集和频繁模式等概念,以及相关的理论、算法和应用。
1. 一阶回归树
1.1 定义
一阶回归树是一种二叉树,具有以下特点:
- 每个内部节点包含一个测试,该测试是一阶文字的合取。
- 树的每个叶子节点(终端节点)包含一个实值预测。
此外,对用于内部节点测试的一阶文字有一个额外的约束:在某个节点中引入的变量(即该变量不在更高层的节点中出现)不会出现在该节点的右子树中。
1.2 示例
假设有一个一阶回归树,节点的测试应被视为存在量化的合取。例如,在图中给出的示例中,测试如 On(BlockA, floor) 、 On(BlockB, BlockA) 和 Clear(BlockA) 等。对于给定的状态描述,树会根据测试结果进行预测。如果存在一个块既在地板上又为空,那么可能会选择某个叶子节点的预测值;如果不存在这样的块,但存在一个块在地板上且上面有另一个块,那么会选择另一个叶子节点的预测值。
1.3 变量使用约束的原因
内部节点测试中的变量是存在量化的。假设一个节点引入了一个新变量 X ,左子树对应于找到一个 X 的替换使得合取为真的情况,而右子树对应于不存在这样的 X 替换的情况。因此,在右子树中引用 X 是没
超级会员免费看
订阅专栏 解锁全文
1206

被折叠的 条评论
为什么被折叠?



