知识图谱基础
知识图谱(Knowledge Graph)概念在2012年由谷歌提出,是结构化的语义知识库。更好的组织、管理和利用海量信息。
知识图谱旨在描述真实世界中存在的各种实体或概念及其关系,
其构成一张巨大的语义网络图(即以图形化形式通过点和边表达知识的方式,基本组成元素是点和边)
点表示实体或概念或属性值,边则由属性或关系(实例关系,子类关系,属性关系等)构成。
概念:又称类/类别。主要指集合、类别、对象类型、事物的种类。
实体:属性赖以存在的基础,且独立不依附与其他东西而存在的。
本体:表达认知的概念框架,表达概念间的语义关系,刻画概念的公理系统(有的本体定义中也包含实例)
- 基本组成单位:三元组
实体-关系-实体
实体-属性-属性值
实体-关系-概念
…
- 数据类型
- 结构化数据:如关系数据库
- 半结构化数据:如xml、json、百科
- 非结构化数据:如图片、音频、视频、文本
- 构建方式
-
自顶向下:借助百科类网站等结构化数据源,从高质量数据中提取本体和模式信息,加入到知识库中。
-
自底向上:从一些开放链接数据中提取出实体,选择其中置信度较高的加入到知识库,再构建顶层的本体模式。
- 表示方式
-
资源描述框架RDF:提供了一个统一的标准来描述web上资源
RDF 形式上表示为 SPO 三元组(Subject, Predicate, Object)。每个实体的一个属性及属性值,或者它与其他实体间的一条关系,都可以表示成三元组,成为一个 事实或一条知识。于是,知识就被表示成三元组形式。在RDF中,用国际化资源标识符URI标记对象。
RDF可描述实体、实体的属性以及他们之间的关系,但是无法描述类与类之间的关系,类的属性等。
RDFS在RDF的基础上定义了一些固定的关键词如:Class,subClassOf,type, Property, subPropertyOf, Domain, Range以及多了Schema层。
-
在这里插入图片描述
-
属性图:带标签的属性图,由⼀组结点、关系、属性和标签组成。(Neo4j)
-
知识图谱的分布式表示–KG Embedding
在保留语义的同时,将知识图谱中的实体和关系映射到连续的稠密的低维向量空间。
知识图谱架构
1.逻辑架构
-
模式层
模式层构建在数据层之上,是知识图谱的核心,通常采用本体库来管理知识图谱的模式层。
本体是结构化知识库的概念模板,通过本体库而形成的知识库不仅层次结构较强,并且冗余程度较小。
-
数据层
由一系列的事实组成,而知识将以事实为单位进行存储。
如果用(实体,关系,实体)、(实体、属性,属性值)这样的三元组来表达事实,可选择图数据库作为存储介质,
例如开源的Neo4j、Twitter的FlockDB、sones的GraphDB等。
2.技术架构
1. 信息抽取:从原始的非结构化和半结构化数据中获取实体、关系以及实体的属性信息。
- 实体抽取:命名实体识别NER,指从文本数据集中自动识别出命名实体。
实现:长短期记忆网络LSTM、注意力机制、迁移学习
- 关系抽取
实现:人工构造语法和语义规则(模式匹配),基于特征向量或核函数的有监督学习方法,基于CNN,RNN特征提取。
- 属性抽取:从多种数据来源中汇集实体的属性信息,实现对实体属性的完整勾画
2. 知识融合
由于
信息抽取得到的信息关系扁平化,缺乏层次性和逻辑性
知识中还可能存在大量冗杂和错误的信息
故需要进行知识融合。知识融合包括实体链接,知识合并两部分:
实体链接
将文本中抽取得到的实体对象,链接到知识库中对应的正确实体对象的操作。
-
实体指称是指在具体上下⽂中出现的待消歧实体名。
-
基本思想:根据给定的实体指称项,从知识库中选出一组候选实体对象,然后通过相似度计算将指称项链接到正确的实体对象。
-
流程:
- 对文本中通过实体抽取得到实体指称项,可以使⽤基于规则和词典的抽取⽅法,也可以使⽤基于统计学习的抽取⽅法。
- 进行实体消歧(解决同名实体存在的一词多义歧义问题)和共指消解(解决多个指称对应同一实体对象的问题,将同一实体的不同描述合并到一起的过程).
- 在确认知识库中对应的正确实体对象之后,将该实体指称项链接到知识库中对应实体
知识合并
构建知识图谱时,可以从第三方知识库产品或已有结构化数据获取知识输入。常见的知识合并需求是合并外部知识库,合并关系数据库。
-
将外部知识库融合到本地知识库
-
数据层的融合,包括实体的指称、属性、关系以及所属类别等,主要的问题是如何避免实例以及关系的冲突问题,造成不必要的冗余
-
模式层的融合,将新得到的本体融入已有的本体库中
-
-
合并关系数据库
将关系数据库的数据换成资源描述框架RDF的三元组数据,这个过程称为RDB2RDF。
3. 知识加工
通过信息抽取,从原始语料中提取出了实体、关系与属性等知识要素
经过知识融合,消除实体指称项与实体对象之间的歧义,得到一系列基本的事实表达
最后由知识加工获得结构化,网络化的知识体系
知识加工包括本体构建、知识推理和质量评估三部分。
-
本体构建
本体是指公认的概念集合、概念框架,如“人”、“事”、“物”等。
自动化本体构建过程包含三个阶段:
- 实体并列关系相似度计算
- 实体上下位关系(isA)抽取
- 本体的生成
-
知识推理
完成本体构建后,知识图谱之间大多数关系可能是残缺的,故使用知识推理技术进一步完善:
实体间关系
实体属性值
本体概念层次关系等
算法主要可以分为3大类,基于逻辑的推理、基于图的推理和基于深度学习的推理。
-
质量评估
可以对知识的可信度进行量化,通过舍弃置信度较低的知识来保障知识库的质量。
经典图谱
概念图谱:专注于实体与概念之间isA关系(实体与概念,子概念与父概念)的知识图谱。
百科图谱:以百科类网站作为主要数据的知识图谱。
知识图谱质量评估维度
准确性,一致性,时效性,完整性
知识图谱应用
语义检索
智能问答
可以对知识的可信度进行量化,通过舍弃置信度较低的知识来保障知识库的质量。
经典图谱
概念图谱:专注于实体与概念之间isA关系(实体与概念,子概念与父概念)的知识图谱。
百科图谱:以百科类网站作为主要数据的知识图谱。
知识图谱质量评估维度
准确性,一致性,时效性,完整性
知识图谱应用
语义检索
智能问答