一. DeepDive
DeepDive (http://deepdive.stanford.edu/) 是斯坦福大学开发的信息抽取系统,能处理文本、表格、图表、图片等多种格式的无结构数据,从中抽取结构化的信息。系统集成了文件分析、信息提取、信息整合、概率预测等功能。Deepdive的主要应用是特定领域的信息抽取,系统构建至今,已在交通、考古、地理、医疗等多个领域的项目实践中取得了良好的效果;在开放领域的应用,如TAC-KBP竞赛、维基百科的infobox信息自动增补等项目中也有不错的表现。
deepdive是由斯坦福大学InfoLab实验室开发的一个开源知识抽取系统,开源地址:https://github.com/HazyResearch/deepdive
本文用的支持中文的deepdive来自于http://www.openkg.cn/dataset/cn-deepdive,修改了自然语言处理的model包,使它支持中文。
DeepDive的数据(包括输入,输出,中间media)全都存在关系数据库中,支持数据库类型:postgresql(建议)、mysql、postgresql-xl、greenplum
DeepDive的系统架构如下图所示,大致分为数据处理、数据标注、学习推理和交互迭代四个流程:
二. 知识图谱构建流程
知识图谱的架构,包括知识图谱自身的逻辑结构以及构建知识图谱所采用的技术(体系)结构。
知识图谱的逻辑结构分为两个层次:数据层和模式层。
在知识图谱的数据层,知识以事实(fact)为单位存储在图数据库。如果以『实体-关系-实体』或者『实体-属性-值』三元组作为事实的基本表达方式,则存储在图数据库中的所有数据将构成庞大的实体关系网络,形成知识的图谱。
模式层在数据层之上,是知识图谱的核心,在模式层存储的是经过提炼的知识,通常采用本体库来管理知识图谱的模式层,借助本体库对公理、规则和约束条件的支持能力来规范实体、关系以及实体的类型和属性等对象之间的联系。本体库在知识图谱中的地位相当于知识库的模具,拥有本体库的知识库冗余知识较少
举例:
模式层:实体-关系-实体;实体-属性-性值
数据层:比尔盖茨-配偶-梅琳达;比尔盖茨-总裁-微软
知识图谱有自顶向下和自底向上2种构建方式。所谓自顶向下构建是借助百科类网站等结构化数据源,从高质量数据中提取本体和模式信息,加入到知识库中;所谓自底向上构建,则是借助一定的技术手段,从公开采集的数据中提取出资源模式,选择其中置信度较高的新模式,经人工审核之后,加入到知识库中。
目前知识图谱大多采用自底向上的方式构建,本文也主要介绍自底向上的知识图谱构建技术,按照知识获取的过程分为3个层次:信息抽取、知识融合以及知识加工。
2.1 知识图谱的构建技术
采用自底向上的方式构建知识图谱的过程是一个迭代更新的过程,每一轮更新包括3个步骤:
- 信息抽取,即从各种类型的数据源中提取出实体(概念)、属性以及实体间的相互关系,在此基础上形成本体化的知识表达
- 知识融合,在获得新知识后,需要对其进行整合&#