知识图谱一 -- 知识图谱架构、DeepDive中文抽取示例

最新推荐文章于 2025-06-18 07:30:34 发布

coder_oyang

最新推荐文章于 2025-06-18 07:30:34 发布

阅读量2w

点赞数 12

CC 4.0 BY-SA版权

分类专栏：知识图谱文章标签：知识图谱 DeepDive

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/coder_oyang/article/details/88376537

一. DeepDive

DeepDive (http://deepdive.stanford.edu/) 是斯坦福大学开发的信息抽取系统，能处理文本、表格、图表、图片等多种格式的无结构数据，从中抽取结构化的信息。系统集成了文件分析、信息提取、信息整合、概率预测等功能。Deepdive的主要应用是特定领域的信息抽取，系统构建至今，已在交通、考古、地理、医疗等多个领域的项目实践中取得了良好的效果；在开放领域的应用，如TAC-KBP竞赛、维基百科的infobox信息自动增补等项目中也有不错的表现。

deepdive是由斯坦福大学InfoLab实验室开发的一个开源知识抽取系统，开源地址：https://github.com/HazyResearch/deepdive

本文用的支持中文的deepdive来自于http://www.openkg.cn/dataset/cn-deepdive，修改了自然语言处理的model包，使它支持中文。

DeepDive的数据（包括输入，输出，中间media）全都存在关系数据库中，支持数据库类型：postgresql（建议）、mysql、postgresql-xl、greenplum

DeepDive的系统架构如下图所示，大致分为数据处理、数据标注、学习推理和交互迭代四个流程：

二. 知识图谱构建流程

知识图谱的架构，包括知识图谱自身的逻辑结构以及构建知识图谱所采用的技术（体系）结构。

知识图谱的逻辑结构分为两个层次：数据层和模式层。

在知识图谱的数据层，知识以事实（fact）为单位存储在图数据库。如果以『实体-关系-实体』或者『实体-属性-值』三元组作为事实的基本表达方式，则存储在图数据库中的所有数据将构成庞大的实体关系网络，形成知识的图谱。

模式层在数据层之上，是知识图谱的核心，在模式层存储的是经过提炼的知识，通常采用本体库来管理知识图谱的模式层，借助本体库对公理、规则和约束条件的支持能力来规范实体、关系以及实体的类型和属性等对象之间的联系。本体库在知识图谱中的地位相当于知识库的模具，拥有本体库的知识库冗余知识较少

举例：

模式层：实体-关系-实体；实体-属性-性值

数据层：比尔盖茨-配偶-梅琳达；比尔盖茨-总裁-微软

知识图谱有自顶向下和自底向上2种构建方式。所谓自顶向下构建是借助百科类网站等结构化数据源，从高质量数据中提取本体和模式信息，加入到知识库中；所谓自底向上构建，则是借助一定的技术手段，从公开采集的数据中提取出资源模式，选择其中置信度较高的新模式，经人工审核之后，加入到知识库中。

目前知识图谱大多采用自底向上的方式构建，本文也主要介绍自底向上的知识图谱构建技术，按照知识获取的过程分为3个层次：信息抽取、知识融合以及知识加工。

2.1 知识图谱的构建技术

采用自底向上的方式构建知识图谱的过程是一个迭代更新的过程，每一轮更新包括3个步骤：

信息抽取，即从各种类型的数据源中提取出实体（概

最低0.47元/天解锁文章

200万优质内容无限畅学

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。