既然决定了以知识图谱作为研究方向,文献综述是必不可少的。
本文主要总结《知识图谱发展报告(2018)-中国中文信息学会》
1. 知识图谱的研究目标与意义 (略)
2. 知识工程的发展历程
3. 知识图谱技术
人们通过概念掌握对客观世界的理解,概念是对客观世界事物的抽象,是将 人们对世界认知联系在一起的纽带。知识图谱以结构化的形式描述客观世界中概 念、实体及其关系。实体是客观世界中的事物,概念是对具有相同属性的事物的 概括和抽象。本体是知识图谱的知识表示基础,可以形式化表示为,O={C,H, P,A,I},
- C 为概念集合,如事物性概念和事件类概念,
- H 是概念的上下位关系 集合,也称为 Taxonomy 知识,
- P 是属性集合,描述概念所具有的特征,
- A 是规 则集合,描述领域规则,
- I 是实例集合,用来描述实例-属性-值。
Google 于 2012 年提出知识图谱,并在语义搜索中取得成功应用。知识图谱可以看做是本体知识 表示的一个大规模应用,Google 知识图谱的知识表示结构主要描述客观存在实体和实体的关系,对于每个概念都有确定的描述这个概念的属性集合。 知识图谱技术是知识图谱建立和应用的技术,是语义 Web、自然语言处理和 机器学习等的交叉学科。
我们将知识图谱技术分为三个部分 :
- 知识图谱构建技术
- 知识图谱查询和推理技术
- 知识图谱应用
在大数据环境下,从互联网开放 环境的大数据中获得知识,用这些知识提供智能服务互联网/行业,同时通过互 联网可以获得更多的知识。这是一个迭代的相互增强过程,可以实现从互联网信息服务到智能知识服务的跃迁。
3.1 知识图谱构建
知识表示与建模 知识表示将现实世界中的各类知识表达成计算机可存储和计算的结构。机器 必须要掌握大量的知识,特别是常识知识才能实现真正类人的智能。从有人工智 能的历史开始,就有了知识表示的研究。知识图谱的知识表示以结构化的形式描 述客观世界中概念、实体及其关系,将互联网的信息表达成更接近人类认知世界 的形式,为理解互联网内容提供了基础支撑。
知识表示学习 随着以深度学习为代表的表示学习的发展,面向知识图谱中实体和关系的表 示学习也取得了重要的进展。知识表示学习将实体和关系表示为稠密的低维向量, V 实现了对实体和关系的分布式表示,可以高效地对实体和关系进行计算,、缓解知 识稀疏、有助于实现知识融合,已经成为知识图谱语义链接预测和知识补全的重 要方法。由于知识表示学习能够显著提升计算效率,有效缓解数据稀疏,实现异 质信息融合,因此对于知识库的构建、推理和应用具有重要意义,值得广受关注、 深入研究。
实体识别与链接 实体是客观世界的事物,是构成知识图谱的基本单位(这里实体指个体或者 实例)。实体分为限定类别的实体(如常用的人名、地名、组织机构等)以及开 放类别实体(如药物名称、疾病等名称)。实体识别是识别文本中指定类别的实 体。实体链接是识别出文本中提及实体的词或者短语(称为实体提及),并与知 识库中对应实体进行链接。 实体识别与链接是知识图谱构建、知识补全与知识应用的核心技术。实体识 别技术可以检测文本中的新实体,并将其加入到现有知识库中。实体链接技术通 过发现现有实体在文本中的不同出现,可以针对性的发现关于特定实体的新知识。 实体识别与链接的研究将为计算机类人推理和自然语言理解提供知识基础。
实体关系学习 实体关系描述客观存在的事物之间的关联关系,定义为两个或多个实体之间 的某种联系,实体关系学习就是自动从文本中检测和识别出实体之间具有的某种语义关系,也称为关系抽取。实体关系抽取分类预定义关系抽取和开放关系抽取。 预定义关系抽取是指系统所抽取的关系是预先定义好的,比如知识图谱中定义好 的关系类别,如上下位关系、国家—首都关系等。开放式关系抽取。开放式关系抽取不预先定义抽取的关系类别,由系统自动从文本中发现并抽取关系。实体关 系识别是知识图谱自动构建和自然语言理解的基础。
事件知识学习 事件是促使事物状态和关系改变的条件,是动态的、结构化的知识。目前已 存在的知识资源(如谷歌知识图谱)所描述多是实体以及实体之间的关系,缺乏 对事件知识的描述。针对不同领域的不同应用,事件有不同的描述范畴。一种将 事件定义为发生在某个特定的时间点或时间段、某个特定的地域范围内,由一个 或者多个角色参与的一个或者多个动作组成的事情或者状态的改变。一种将事件 认为是细化了的主题,是由某些原因、条件引起,发生在特定时间、地点,涉及 某些对象,并 可能伴随某些必然结果的事情。事件知识学习,即将非结构化文本 文本中自然语言所表达的事件以结构化的形式呈现,对于知识表示、理解、计算 和应用意义重大。 知识图谱中的事件知识隐含互联网资源中,包括已有的结构化的语义知识、 VI 数据库的结构化信息、半结构化的信息资源以及非结构化资源,不同性质的资源 有不同的知识获取方法。
3.2 知识图谱查询和推理计算
知识存储和查询 知识图谱以图(Graph)的方式来展现实体、事件及其之间的关系。知识图 谱存储和查询研究如何设计有效的存储模式支持对大规模图数据的有效管理,实 现对知识图谱中知识高效查询。因为知识图谱的结构是复杂的图结构,给知识图 谱的存储和查询带来了挑战。当前目前知识图谱多以三元存在的 RDF 形式进行 存储管理,对知识图谱的查询支持 SPARQL 查询。
知识推理 知识推理从给定的知识图谱推导出新的实体跟实体之间的关系。知识图谱推 理可以分为基于符号的推理和基于统计的推理。在人工智能的研究中,基于符号 的推理一般是基于经典逻辑(一阶谓词逻辑或者命题逻辑)或者经典逻辑的变异 (比如说缺省逻辑)。基于符号的推理可以从一个已有的知识图谱推理出新的实体 间关系,可用于建立新知识或者对知识图谱进行逻辑的冲突检测。基于统计的方 法一般指关系机器学习方法,即通过统计规律从知识图谱中学习到新的实体间关 系。知识推理在知识计算中具有重要作用,如知识分类、知识校验、知识链接预 测与知识补全等。
3.3 知识图谱应用
通用和领域知识图谱 知识图谱分为通用知识图谱与领域知识图谱两类,两类图谱本质相同,其区 别主要体现在覆盖范围与使用方式上。通用知识图谱可以形象地看成一个面向通 用领域的结构化的百科知识库,其中包含了大量的