知识图谱基础

知识图谱基础

知识图谱(Knowledge Graph)概念在2012年由谷歌提出,是结构化的语义知识库。更好的组织、管理和利用海量信息。

在这里插入图片描述

知识图谱旨在描述真实世界中存在的各种实体或概念及其关系,

其构成一张巨大的语义网络图(即以图形化形式通过点和边表达知识的方式,基本组成元素是点和边)

点表示实体或概念或属性值,边则由属性或关系(实例关系,子类关系,属性关系等)构成。

概念:又称类/类别。主要指集合、类别、对象类型、事物的种类。

实体:属性赖以存在的基础,且独立不依附与其他东西而存在的。

本体:表达认知的概念框架,表达概念间的语义关系,刻画概念的公理系统(有的本体定义中也包含实例)

在这里插入图片描述

  1. 基本组成单位:三元组

实体-关系-实体

实体-属性-属性值

实体-关系-概念

知识图谱示例

  1. 数据类型
  • 结构化数据:如关系数据库
  • 半结构化数据:如xml、json、百科
  • 非结构化数据:如图片、音频、视频、文本
  1. 构建方式
  • 自顶向下:借助百科类网站等结构化数据源,从高质量数据中提取本体和模式信息,加入到知识库中。

  • 自底向上:从一些开放链接数据中提取出实体,选择其中置信度较高的加入到知识库,再构建顶层的本体模式。

  1. 表示方式
  • 资源描述框架RDF:提供了一个统一的标准来描述web上资源

    RDF 形式上表示为 SPO 三元组(Subject, Predicate, Object)。每个实体的一个属性及属性值,或者它与其他实体间的一条关系,都可以表示成三元组,成为一个 事实或一条知识。于是,知识就被表示成三元组形式。在RDF中,用国际化资源标识符URI标记对象。

    RDF可描述实体、实体的属性以及他们之间的关系,但是无法描述类与类之间的关系,类的属性等。

    RDFS在RDF的基础上定义了一些固定的关键词如:Class,subClassOf,type, Property, subPropertyOf, Domain, Range以及多了Schema层。

在这里插入图片描述

  • 在这里插入图片描述

  • 属性图:带标签的属性图,由⼀组结点、关系、属性和标签组成。(Neo4j)

    在这里插入图片描述

  • 知识图谱的分布式表示–KG Embedding

    在保留语义的同时,将知识图谱中的实体和关系映射到连续的稠密的低维向量空间。

知识图谱架构

1.逻辑架构

  • 模式层

    模式层构建在数据层之上,是知识图谱的核心,通常采用本体库来管理知识图谱的模式层。

    本体是结构化知识库的概念模板,通过本体库而形成的知识库不仅层次结构较强,并且冗余程度较小。

  • 数据层

    由一系列的事实组成,而知识将以事实为单位进行存储。

    如果用(实体,关系,实体)、(实体、属性,属性值)这样的三元组来表达事实,可选择图数据库作为存储介质,

    例如开源的Neo4j、Twitter的FlockDB、sones的GraphDB等。

2.技术架构

知识图谱技术架构

1. 信息抽取:从原始的非结构化和半结构化数据中获取实体、关系以及实体的属性信息。
  • 实体抽取命名实体识别NER,指从文本数据集中自动识别出命名实体。

实现:长短期记忆网络LSTM、注意力机制、迁移学习

  • 关系抽取

实现:人工构造语法和语义规则(模式匹配),基于特征向量或核函数的有监督学习方法,基于CNN,RNN特征提取。

  • 属性抽取:从多种数据来源中汇集实体的属性信息,实现对实体属性的完整勾画
2. 知识融合

由于

信息抽取得到的信息关系扁平化,缺乏层次性和逻辑性

知识中还可能存在大量冗杂和错误的信息

故需要进行知识融合。知识融合包括实体链接,知识合并两部分:

实体链接

将文本中抽取得到的实体对象,链接到知识库中对应的正确实体对象的操作。

  • 实体指称是指在具体上下⽂中出现的待消歧实体名。

  • 基本思想:根据给定的实体指称项,从知识库中选出一组候选实体对象,然后通过相似度计算将指称项链接到正确的实体对象。

  • 流程:

  1. 对文本中通过实体抽取得到实体指称项,可以使⽤基于规则和词典的抽取⽅法,也可以使⽤基于统计学习的抽取⽅法。
  2. 进行实体消歧(解决同名实体存在的一词多义歧义问题)和共指消解(解决多个指称对应同一实体对象的问题,将同一实体的不同描述合并到一起的过程).
  3. 在确认知识库中对应的正确实体对象之后,将该实体指称项链接到知识库中对应实体
知识合并

构建知识图谱时,可以从第三方知识库产品或已有结构化数据获取知识输入。常见的知识合并需求是合并外部知识库,合并关系数据库。

  • 将外部知识库融合到本地知识库

    1. 数据层的融合,包括实体的指称、属性、关系以及所属类别等,主要的问题是如何避免实例以及关系的冲突问题,造成不必要的冗余

    2. 模式层的融合,将新得到的本体融入已有的本体库中

  • 合并关系数据库

    将关系数据库的数据换成资源描述框架RDF的三元组数据,这个过程称为RDB2RDF。

3. 知识加工
  1. 通过信息抽取,从原始语料中提取出了实体、关系与属性等知识要素

  2. 经过知识融合,消除实体指称项与实体对象之间的歧义,得到一系列基本的事实表达

  3. 最后由知识加工获得结构化,网络化的知识体系

知识加工包括本体构建、知识推理和质量评估三部分。

  • 本体构建

    本体是指公认的概念集合、概念框架,如“人”、“事”、“物”等。

    自动化本体构建过程包含三个阶段:

    1. 实体并列关系相似度计算
    2. 实体上下位关系(isA)抽取
    3. 本体的生成

  • 知识推理

    完成本体构建后,知识图谱之间大多数关系可能是残缺的,故使用知识推理技术进一步完善:

    实体间关系

    实体属性值

    本体概念层次关系等

    算法主要可以分为3大类,基于逻辑的推理、基于图的推理和基于深度学习的推理

  • 质量评估

可以对知识的可信度进行量化,通过舍弃置信度较低的知识来保障知识库的质量。

经典图谱

概念图谱:专注于实体与概念之间isA关系(实体与概念,子概念与父概念)的知识图谱。

百科图谱:以百科类网站作为主要数据的知识图谱。

知识图谱质量评估维度

准确性,一致性,时效性,完整性

知识图谱应用

语义检索

智能问答

可以对知识的可信度进行量化,通过舍弃置信度较低的知识来保障知识库的质量。

经典图谱

概念图谱:专注于实体与概念之间isA关系(实体与概念,子概念与父概念)的知识图谱。

百科图谱:以百科类网站作为主要数据的知识图谱。

知识图谱质量评估维度

准确性,一致性,时效性,完整性

知识图谱应用

语义检索

智能问答

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值