本体填充与丰富:现状与分析
1. 本体学习概述
本体学习涉及多个关键任务,包括本体填充、本体丰富和不一致性解决。本体填充是将概念和关系的实例插入现有本体的过程,不改变本体的结构,如概念层次和非分类关系,仅改变概念和关系在领域中的实现(实例)集合。本体丰富则是用新的概念、关系和规则扩展本体。不一致性解决负责纠正填充和丰富过程中引入的问题。此外,还需要进行本体评估,以衡量学习到的本体的合理性。
本体学习通常被建模为一个自举过程:以初始本体为基础,分析和提取语料库中的信息,用提取的信息演化本体,再通过演化后的本体改进信息提取,直到无法从语料库中提取更多信息。在每个循环中,都会检查本体的一致性,若不一致则丢弃更改。
2. 本体规则获取
本体规则获取是本体学习中较少涉及的方面。有尝试提出从文本中发现推理规则的无监督方法,学习到的规则形式如 “X is author of Y ≈ X wrote Y” 等。还有人提出使用本体的规则获取过程,包括规则组件识别和规则组合,前者使用词干提取和语义相似度,后者使用图搜索方法。在归纳逻辑编程领域,也有尝试解决语义网的推理问题。
3. 本体学习工具的比较分析
为了比较不同的本体学习工具,采用了一些重要的分类标准:
- 学习的 “层蛋糕” 元素 :学习的 “层蛋糕” 元素能反映本体学习系统的复杂性和能力,系统应尽可能为更多层提供解决方案。
- 初始要求 :包括先验知识和学习本体所需的输入类型,明确了本体学习系统的起点、背景知识和可用资源,领域依赖资源会影响系统的可移植性。
-