知识图谱入门(一)

最近在研究Graph RAG项目,因此对相关内容做个总结,首先从知识图谱开始,供大家参考。

知识图谱是结构化知识表示的一种形式,它将知识组织成一个多关系图,其中节点表示实体,边表示实体之间的关 系。知识图谱可以表示实体之间的语义关系,帮助机器理解和推理自然语言文本。 支持用户按主题而不是字符串检索,真正实现语义检索。基于知识图谱的搜索引擎,能够以图形方式向用户反馈结 构化的知识,不必浏览大量文档即能准确定位和深度获取知识。

知识图谱概述

1.1. 知识图谱的发展

2012 年,谷歌正式提出了知识图谱( Knowledge Graph)的概念,旨在实现更智能的搜索引擎,并且于 2013 年 以后开始在学术界和业界普及。下图是 Goolge 搜索中的结果,不仅仅给出了 pagerank,还给出了知识图谱的搜 索结果。

目前,随着智能信息服务应用的不断发展,知识图谱已被广泛应用于智能搜索、智能问答、个性化推荐、情报分析、 反欺诈等领域。另外,通过知识图谱能够将 Web 上的信息、数据以及链接关系聚集为知识,使信息资源更易于计 算、理解以及评价,并且形成一套 Web 语义知识库。知识图谱以其强大的语义处理能力与开放互联能力,可为万 维网上的知识互联奠定扎实的基础,使 Web 3.0 提出的“知识之网”愿景成为了可能。 要追溯知识图谱的起源,我们可以回到 20 世纪 60 年代提出的语义网络(Semantic Networks)。 以下是其发展脉络:

1.2. 知识图谱覆盖的领域

知识图谱的覆盖了知识图谱的表示、存储、获取、推理、融合、问答、分析等七大方面。同时,它还包含了与其他 学科领域的交叉融合,主要可以分为以下四个方面:

1.3. 知识图谱的组成

  • 实体 实体是知识图谱中的基本单元,通常是名词或概念。实体可以是具体的对象(如人、地点、物品)或抽象的概念(如 概念、类别)。
  • 关系 关系是知识图谱中实体之间的连接,表示实体之间的语义关系。关系可以是二元的(表示两个实体之间的关系)或 多元的(表示多个实体之间的关系)。

知识图谱中的知识表示

知识表示的核心是通过某种形式来描述、组织和存储知识,便于机器理解与推理。知识表示主要用途如下:

知识表示的主要方法:

2.1. 知识图谱的符号表示方法

知识图谱通过图的形式来描述和表达知识,能够构建更复杂的实体关系模型。但在知识图谱的实际实践中,不同的 应用场景会对知识的建模采用不同表达能力的图表示方法。 知识图谱表示应用最多的是有向标记图(Directed Labelled Graph)。最常用的两种有向标记图模型,一种叫属性 图(Property Graph),另外一种是 RDF 图模型。但有向标记图的表达能力依然是有限的,在很多专业领域,如医 学本体构建等,需要更为复杂的关系语义的表示,例如描述对称关系、自反关系、传递关系等,这就需要用到 OWL 等本体描述语言。知识图谱领域三种最常用的知识表示方法——属性图、RDF 图模型和 OWL 本体语言。

2.1.1 属性图

属性图是图数据库 Neo4J 实现的图结构表示模型,在工业界有广泛应用。属性图的优点是表达方式非常灵活,例 如,它允许为边增加属性,非常便于表示多元关系。属性图的存储充分利用图的结构进行优化,因而在查询计算方 面具有较大优势。属性图的缺点是缺乏工业标准规范的支持,由于不关注更深层的语义表达,也不支持符号逻辑推 理。

2.1.2 RDF 图模型

RDF 是国际万维网联盟 W3C 推动的面向 Web 的语义数据标准,所以 RDF 本身的定位首先是数据交换标准规范, 而非存储模型。RDF 的基本组成单元是三元组,即(s,p,o),例如,可以用一条三元组来描述<浙江大学, 位于, 杭 州>。一条三元组代表关于客观世界的逻辑描述或客观事实。多个三元组头尾相互连接,就形成了一个 RDF 图。本 质上,RDF 图也是一个有向标记图。 RDF 还提供了基础的表达构件用于定义类、属性等 Schema 层的术语。例如,domain、range 用于定义某个关系 的头尾节点类型,subClassOf 和 subPropertyOf 用于定义类及属性之间的层次关系等。有了 RDFS,已经可以实 现最简单的符号推理。

例如:如果将谷歌定义为一家人工智能公司,同时也知道人工智能公司是高科技公司,就可 以推理得出谷歌也是一家高科技公司。这类简单的推理已经可以减轻数据维护的负担,因为很多查询结果可以通过 推理间接得出,而不用对所有结果进行全量存储。

2.1.3 OWL 本体语言

RDF+RDFS 的表达能力是非常有限的。在实际应用中,需要定义更为复杂的概念,刻画更为复杂的概念关系。这就 需要用到 OWL 等本体表达语言。本体(Ontology)原来是一个哲学术语,后来被人工智能的研究人员作为知识表 示研究的对象引入计算机领域。本体最常用的逻辑表达语言即描述逻辑(Description Logic)。

OWL 首先可以被看作 RDF Schema 的扩展。OWL 在 RDF 的基础上增加了更多的语义表达构件。例如,通过多个 类组合定义更加复杂的类;刻画关系的一对多、多对一、多对多等关系基数(Cardinality)约束;定义常用的全称 量词和存在量词;定义互反关系、传递关系、自反关系、函数关系等更加复杂的关系语义等。 OWL 拥有众多的表达构件。

OWL 实际上有很多语言家族,不同的语言家族代表不同的表达构件的组合。不同的组 合对应不同的推理计算复杂度以及它们所适用的场景。OWL-QL 表示查询语言的意思,专为基于大规模的查询设计 的子语言;OWL 2 RL 在扩展 RDFS 表达能力的同时,保持了较低的复杂度;OWL 2 EL 专为概念术语描述、推理 而设计,在生物医疗领域广泛应用,如临床医疗术语本体 SNOMED CT 等。

2.2. 最常用的知识表示方法--属性图(neo4j 的实现)

在知识表示中,知识图谱是一种知识库,其中的数据通过图结构的数据模型或拓扑整合而成。知识图谱通常被用 来存储彼此之间具有相互联系的实体。 三元组是知识图谱的一种通用表示方式,即 G =(E, R, S),其中 E 是知识库中的实体,R 是知识库中的关系,S 代表知识库中的三元组。

三元组的基本形式主要包括实体关系、实体和概念、属性、属性值等。

• 实体是知识图谱中的最基本元素,不同的实体间存在不同的关系。

• 概念主要指集合、类别、对象类型、事物的种类,例如人物、地理等。

• 属性主要指对象可能具有的属性、特征、特性、特点以及参数,例如国籍、生日等; 属性值主要指对象指定属 性的值,例如中国、1988-09-08 等。

每个实体(概念的外延)可用一个全局唯一确定的 ID 来标识,每个属性-属性值对(attribute-value pair, AVP) 可用 来刻画实体的内在特性,而关系可用来连接两个实体,刻画它们之间的关联。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

科技之歌

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值