
知识图谱基本概念
一. 本体论
1. 定义
维基百科:本体实际上就是对特定领域之中某套概念及其相互之间关系的形式化表达。或者说,本体就是对那些可能相对于某一智能体(agent)或智能体群体而存在的概念和关系的一种描述。
可以理解成,本体就是一种概念,如人这个概念集合,它是一种抽象集合用来表达世界上的具体的实际的物体,而在人工智能领域上我们主要将本体论的观念用在知识表达上,即借由本体论中的基本元素:概念及概念间的关连,作为描述真实世界的知识模型。

如上图所示:我们输入鱼这个名词,可以得知它是一种动物且住在水里。
2. 本体的分类
1)领域本体(domain ontology或者说domain-specific ontology,即领域特异性本体)
所建模的是某个特定领域。如医学领域的氨基酸本体(Amino Acid Ontology)、细胞周期本体(Cell-Cycle Ontology,CCO)、疾病本体(Disease Ontology)等。
2)上层本体(upper ontology或者说foundation ontology,即基础本体)
指一种由那些在各种各样的领域本体之中都普遍适用的共同对象所构成的模型。其中所收录的核心词表,可以用来描述一套领域当中的对象。如openCyc。
3)openCyc:是一个致力于将各个领域的本体及常识知识综合地集成在一起,并在此基础上实现知识推理的人工智能项目。其目标是使人工智能的应用能够以类似人类推理的方式工作。Cyc知识库中表示的知识一般形如“每棵树都是植物”、“植物最终都会死亡”。当提出“树是否会死亡”的问题时,推理引擎可以得到正确的结论,并回答该问题。
3. 本体要素
常见的本体构成要素包括:
- 个体(实例):基础的或者说“底层的”对象。
- 类:集合(sets)、概念、对象类型或者说事物的种类。
- 属性:对象(和类)所可能具有的属性、特征、特性、特点和参数。
- 关系:类与个体之间的彼此关联所可能具有的方式。
- 函数术语:在声明语句当中,可用来代替具体术语的特定关系所构成的复杂结构。
- 约束(限制):采取形式化方式所声明的,关于接受某项断言作为输入而必须成立的情况的描述。
- 规则:用于描述可以依据特定形式的某项断言所能够得出的逻辑推论的,if-then(前因-后果)式语句形式的声明。
- 公理:采取特定逻辑形式的断言(包括规则在内)所共同构成的就是其本体在相应应用领域当中所描述的整个理论。这种定义有别于产生式语法和形式逻辑当中所说的“公理”。在这些学科当中,公理之中仅仅包括那些被断言为先验知识的声明。就这里的用法而言,“公理”之中还包括依据公理型声明所推导得出的理论。
- 事件 (哲学):属性或关系的变化。
4. 本体语言
W3C组织也开始定义了许多本体论的相关语言,如RDF、OWL等。
1)RDF:资源描述框架(Resource Description Framework, 简称 RDF) ,是一个用于表达关于万维网(World Wide Web)上的资源的信息的语言. 它专门用于表达关于Web资源的元数据, 比如Web页面的标题、作者和修改时间,Web文档的版权和许可信息,某个被共享资源的可用计划表等。

如上图所示:用URls来标识事物,再用简单的属性来描述事物
2)网络本体语言 (Ontology Web Language,OWL),旨在提供一种可用于描述网络文档和应用之中所固有的那些类及其之间关系的语言。Owl是基于RDF基础之上的,而RDF是建立在XML之上的。

二. 知识图谱的定义

在维基百科的官方词条中:知识图谱是Google用于增强其搜索引擎功能的知识库。本质上, 知识图谱旨在描述真实世界中存在的各种实体或概念及其关系,其构成一张巨大的语义网络图,节点表示实体或概念,边则由属性或关系构成。
现在的知识图谱已被用来泛指各种大规模的知识库。 我们先来看下知识类型的定义,知识图谱中包含的节点:
-
实体: 指的是具有可区别性且独立存在的某种事物。如某一个人、某一个城市、某一种植物等、某一种商品等等。世界万物由具体事物组成,此指实体。如“中国”、“美国”、“日本”等。实体是知识图谱中的最基本元素,不同的实体间存在不同的关系。
-
语义类(概念):具有同种特性的实体构成的集合,如国家、民族、书籍、电脑等。 概念主要指集合、类别、对象类型、事物的种类,例如人物、动物等。
-
内容: 通常作为实体和语义类的名字、描述、解释等,可以由文本、图像、音视频等来表达。
-
属性(值): 从一个实体指向它的属性值。不同的属性类型对应于不同类型属性的边。属性值主要指对象指定属性的值。“面积”、“人口”、“首都”是几种不同的属性。属性值主要指对象指定属性的值,例如960万平方公里等。
-
关系: 形式化为一个函数,它把 k * k个点映射到一个布尔值。在知识图谱上,关系则是一个把k * k个图节点(实体、语义类、属性值)映射到布尔值的函数。
三. 知识图谱的架构
知识图谱的架构主要包括自身的逻辑结构以及体系架构,分别说明如下。
1. 知识库的逻辑结构
知识图谱在逻辑上可分为模式层与数据层两个层次:
1)数据层主要是由一系列的事实组成,而知识将以事实为单位进行存储。如果用(实体 A,关系,实体 B)、(实体、属性,属性值)这样的三元组来表达事实,可选择图数据库作为存储介质,例如开源的 Neo4j、Twitter 的 FlockDB、Sones 的 GraphDB 等。
2)模式层构建在数据层之上,主要是通过本体库来规范数据层的一系列事实表达。本体是结构化知识库的概念模板,通过本体库而形成的知识库不仅层次结构较强,并且冗余程度较小。
2. 知识图谱的体系架构
知识图谱的体系架构是指其构建模式结构,其中虚线框内的部分为知识图谱的构建过程,也包含知识图谱的更新过程。如下图所示:

知识图谱构建从最原始的数据(包括结构化、半结构化、非结构化数据)出发,采用一系列自动或者半自动的技术手段,从原始数据库和第三方数据库中提取知识事实,并将其存入知识库的数据层和模式层,这一过程包含:信息抽取、知识表示、知识融合、知识推理四个过程,每一次更新迭代均包含这四个阶段。
知识图谱主要有自顶向下与自底向上两种构建方式:
1)自顶向下指的是先为知识图谱定义好本体与数据模式,再将实体加入到知识库。该构建方式需要利用一些现有的结构化知识库作为其基础知识库,例如 Freebase 项目就是采用这种方式,它的绝大部分数据是从维基百科中得到的。
2)自底向上指的是从一些开放链接数据中提取出实体,选择其中置信度较高的加入到知识库,再构建顶层的本体模式。目前,大多数知识图谱都采用自底向上的方式进行构建,其中最典型就是 Google 的 Knowledge Vault。
四. 知识图谱技术概览
下图表示了知识图谱的技术体系,首先在最底层我们有大量的文本

最低0.47元/天 解锁文章
1671

被折叠的 条评论
为什么被折叠?



