自顶向下数据驱动策略向归纳逻辑编程的扩展
1. 最近错过示例的定义与特性
在学习过程中,为了有效处理负例,我们引入了“最近错过(nearest - miss)”的概念。设 (s \in L_h) 为种子示例,(x, y \in L_s),距离 (d(s, y)) 为 (s) 和 (y) 之间不同属性值的数量。若 (x) 满足 ((x \leq_h y) \vee (y \not\leq_h x \wedge d(s, x) \leq d(s, y))),则称 (x) 比 (y) 更近错过。这是 (L_s) 元素上的一个全预序,关于这个全预序的最小元素(最具体的元素)就是最近错过示例。
例如,当只有一个数值属性 (a),种子示例 (a = 1),两个负例分别为 (a = 2) 和 (a = 3),将其重新表述为 (a \in [1, 2]) 和 (a \in [1, 3]) 时,尽管两个负例与种子示例的距离都为 1,但 (a \in [1, 2]) 比 (a \in [1, 3]) 更近错过,因为它更具体,拒绝它就能拒绝另一个负例。
在搜索操作中,不同策略的分支因子有所不同。无种子偏差时,自顶向下生成 - 测试操作符的最大分支因子为 4;仅考虑覆盖种子示例的特化时,分支因子为 2;而 TDD 操作符的分支因子为 1,因为 (e^{-}_2) 与 (s) 的最小泛化(lgg)实际上是一个 Winston 近错过。即使在最坏情况下(仅提供与种子示例差异最大的远错过负例),TDD 操作符的分支因子也不会超过有种子偏差的自顶向下生成 - 测试操作符。
2. TDD 策略扩展到 ILP
TDD 策略倾向于覆盖种子示例,它依赖于将每个负例 (e^{-
TDD策略扩展至ILP的研究
超级会员免费看
订阅专栏 解锁全文
3445

被折叠的 条评论
为什么被折叠?



