本体填充与丰富:技术现状解析
1. 系统特性概述
在众多相关系统中,其特性存在显著差异,主要体现在领域可移植性和语料模态两方面。
- 领域可移植性 :部分系统是领域无关的,如 KnowItAll、Adaptiva、LEILA、OPTIMA、ISOLDE、BOEMIE,它们不使用任何特定领域的资源;而另一些是特定领域的,像 SOBA。还有一些系统的可移植性有限,例如 Artequakt 和 WEB→KB,原因可能是它们仅适用于具有特定特征的领域,或者需要以当前工作未测试过的方式适应新领域。
- 语料模态 :除了 BOEMIE,提到的所有系统都应用于文本,对于视频、图像或多媒体等其他模态没有特别的处理。BOEMIE 则探索了这一方向,通过分析多媒体语料,支持从多种模态(如文本、图像、视频、音频以及图像/视频 OCR 中的文本)识别对象,然后通过推理(演绎和溯因)将这些对象融合,形成与模态无关的概念实例。
2. 本体丰富概述
本体丰富是通过添加新的概念、关系和规则来扩展本体的过程。当现有领域知识不足以解释从语料中提取的信息时,就会进行本体丰富,以扩展背景知识,更好地解释未来提取的信息。由于在丰富过程中会添加新的概念和关系,本体的结构会发生变化。与只关注较低层的本体填充不同,本体丰富过程涉及所有层次。
当前先进方法的主要步骤如下:
1. 对象识别 :识别对象及其替代实现/同义词,每个对象及其可能的替代实现集都是要添加到本体中的候选概念。
2. 概念评估 :对可能代表概念的对象