HıLεX:用于从网页文档中提取语义信息的系统
在当今信息爆炸的时代,从网页的非结构化文档中自动识别和提取有意义的信息,并考虑其语义,是信息和知识管理领域的一个重要问题。传统的信息提取系统主要基于语法结构,缺乏对信息语义的理解,导致提取的信息实用性有限。而 HıLεX 系统则提供了一种创新的解决方案,它结合了语法和语义知识,能够更有效地从非结构化文档中提取信息。
1. HıLεX 系统概述
HıLεX 是一个基于逻辑的系统,旨在从非结构化文档中进行强大的信息提取。它的独特之处在于以下几个方面:
- 二维文档表示 :将非结构化文档视为笛卡尔平面,由一组嵌套的矩形区域(称为部分)组成。每个部分通过两个相对顶点的笛卡尔坐标唯一标识,并包含一个与本体相关的文档元素。
- DLP+ 知识表示语言 :扩展了析取逻辑编程(DLP),具有面向对象的特性,如类、(多重)继承、复杂对象和类型。DLP+ 非常适合本体的表示和强大的推理,由 DLV + 系统支持。
- 本体的使用 :使用 DLP+ 编码的本体来描述输入文档的领域。领域概念由 DLP+ 类表示,每个类实例是一个模式,用于识别和注释部分中包含的元素。
- HıLεX 二维语法 :用于指定提取模式,扩展了正则表达式以表示二维模式,如表格、项目列表等。通过执行 DLP+ 规则,将每个部分与领域本体的元素关联起来,实现语义信息提取。
2. 二维文档格式
非结构化文档的二维表示是 HıLεX 系统语义信息提取方法的核心概念。其基本思想是
超级会员免费看
订阅专栏 解锁全文
781

被折叠的 条评论
为什么被折叠?



