基于边际的一阶规则学习与自上而下数据驱动策略在ILP中的扩展
1. 基于边际的一阶规则学习
在机器学习和归纳逻辑编程领域,学习一阶规则集有着悠久的历史。传统系统多采用分治策略,而现代系统则基于统计考量,如集成理论、大边际分类或图形模型。这里将关系学习视为统计分类问题,运用统计学习理论的工具和概念设计新的统计一阶规则学习系统。
1.1 设计动机
- 处理噪声数据 :严格的二值逻辑在处理噪声、不精确或不确定的数据及背景知识时并非最优。因此,为规则分配权重,使规则集成为线性分类器,优化基于边际的准则,减少噪声数据的误分类误差,且不使用核技巧以获得可理解的模型。
- 降低计算复杂度 :寻找能解释训练集的假设是NP难问题。为避免直接优化经验训练误差的计算复杂性,采用边际减方差(MMV)这一可行的基于边际的松弛方法,其最小化在实例数量上是线性的,适合处理大型数据集。
- 避免过拟合 :在多关系学习中,可用于分类的特征数量可能无限,过拟合问题至关重要。基于MMV推导误差界,为加权规则集中的规则数量提供理论上合理的停止准则。规则生成基于传统的一阶规则细化和声明式语言偏置,可选择多种搜索策略。系统集成了Prolog引擎,作为独立工具实现。
1.2 一阶规则学习作为模型选择
假设实例是根据固定但未知的分布D独立同分布抽取的,D的范围是X × Y,其中X是所有可能实例的集合,Y是目标标签集合。有一个可能无限的一阶规则库R,规则rj为每个实例分配 -1 或 1。考虑前n个规则时,第
超级会员免费看
订阅专栏 解锁全文
24

被折叠的 条评论
为什么被折叠?



