基于本体的文本信息提取系统解析
1. 第一类信息提取系统概述
第一类信息提取系统主要以网页为输入,经过不同的预处理步骤,采用机器学习等方法进行信息提取,并利用本体知识得到相应输出。以下是该类系统的代表:
| 系统 | 输入与预处理 | 信息提取方法 | 本体使用情况 | 本体特征 | 输出 |
| — | — | — | — | — | — |
| Pinocchio | - 网页
- 分词、词形还原、词性标注 | 机器学习 | 训练语料中的实例标注 | 本体概念地名词典 | 标注语料 |
| CROSSMARC | - 网页
- 分词、词性标注、命名实体识别、文档区域识别 | 机器学习与规则技术结合 | - 概念实例化
- 模板定义 | 多层本体 | 填充模板 |
| 2PP | - 网页
- 文档区域识别 | 机器学习 | 消歧 | 本体概念词典 | 映射到本体概念 |
这些系统都能在给定文本中识别领域概念的实例,可用于语料标注和信息映射到本体概念模式。例如 CROSSMARC 中,实体约束在特定应用规范下有重要作用,如特定速度的计算机处理器。
2. 利用概念层次结构的信息提取系统
在信息提取的第二层面,领域实体或词类以概念层次结构组织,信息提取系统可利用这些层次结构泛化或特化提取规则。
2.1 概念层次关系分类
信息提取过程中使用的分类关系可分为通用和特定领域两类:
- 通用关系 :如“is - a”和“part - of”,可在多种领域使用。
-
超级会员免费看
订阅专栏 解锁全文
478

被折叠的 条评论
为什么被折叠?



