【知识图谱科普】:从小白到入门

在这里插入图片描述

知识图谱基本概念

一. 本体论

1. 定义

维基百科:本体实际上就是对特定领域之中某套概念及其相互之间关系的形式化表达。或者说,本体就是对那些可能相对于某一智能体(agent)或智能体群体而存在的概念和关系的一种描述。

可以理解成,本体就是一种概念,如人这个概念集合,它是一种抽象集合用来表达世界上的具体的实际的物体,而在人工智能领域上我们主要将本体论的观念用在知识表达上,即借由本体论中的基本元素:概念及概念间的关连,作为描述真实世界的知识模型。

在这里插入图片描述
如上图所示:我们输入鱼这个名词,可以得知它是一种动物且住在水里。

2. 本体的分类

1)领域本体(domain ontology或者说domain-specific ontology,即领域特异性本体)
所建模的是某个特定领域。如医学领域的氨基酸本体(Amino Acid Ontology)、细胞周期本体(Cell-Cycle Ontology,CCO)、疾病本体(Disease Ontology)等。

2)上层本体(upper ontology或者说foundation ontology,即基础本体)
指一种由那些在各种各样的领域本体之中都普遍适用的共同对象所构成的模型。其中所收录的核心词表,可以用来描述一套领域当中的对象。如openCyc。

3)openCyc:是一个致力于将各个领域的本体及常识知识综合地集成在一起,并在此基础上实现知识推理的人工智能项目。其目标是使人工智能的应用能够以类似人类推理的方式工作。Cyc知识库中表示的知识一般形如“每棵树都是植物”、“植物最终都会死亡”。当提出“树是否会死亡”的问题时,推理引擎可以得到正确的结论,并回答该问题。

3. 本体要素

常见的本体构成要素包括:

  • 个体(实例):基础的或者说“底层的”对象。
  • 类:集合(sets)、概念、对象类型或者说事物的种类。
  • 属性:对象(和类)所可能具有的属性、特征、特性、特点和参数。
  • 关系:类与个体之间的彼此关联所可能具有的方式。
  • 函数术语:在声明语句当中,可用来代替具体术语的特定关系所构成的复杂结构。
  • 约束(限制):采取形式化方式所声明的,关于接受某项断言作为输入而必须成立的情况的描述。
  • 规则:用于描述可以依据特定形式的某项断言所能够得出的逻辑推论的,if-then(前因-后果)式语句形式的声明。
  • 公理:采取特定逻辑形式的断言(包括规则在内)所共同构成的就是其本体在相应应用领域当中所描述的整个理论。这种定义有别于产生式语法和形式逻辑当中所说的“公理”。在这些学科当中,公理之中仅仅包括那些被断言为先验知识的声明。就这里的用法而言,“公理”之中还包括依据公理型声明所推导得出的理论。
  • 事件 (哲学):属性或关系的变化。

4. 本体语言

W3C组织也开始定义了许多本体论的相关语言,如RDF、OWL等。

1)RDF:资源描述框架(Resource Description Framework, 简称 RDF) ,是一个用于表达关于万维网(World Wide Web)上的资源的信息的语言. 它专门用于表达关于Web资源的元数据, 比如Web页面的标题、作者和修改时间,Web文档的版权和许可信息,某个被共享资源的可用计划表等。

在这里插入图片描述
如上图所示:用URls来标识事物,再用简单的属性来描述事物

2)网络本体语言 (Ontology Web Language,OWL),旨在提供一种可用于描述网络文档和应用之中所固有的那些类及其之间关系的语言。Owl是基于RDF基础之上的,而RDF是建立在XML之上的。
在这里插入图片描述

二. 知识图谱的定义

在这里插入图片描述

在维基百科的官方词条中:知识图谱是Google用于增强其搜索引擎功能的知识库。本质上, 知识图谱旨在描述真实世界中存在的各种实体或概念及其关系,其构成一张巨大的语义网络图,节点表示实体或概念,边则由属性或关系构成。

现在的知识图谱已被用来泛指各种大规模的知识库。 我们先来看下知识类型的定义,知识图谱中包含的节点:

  • 实体: 指的是具有可区别性且独立存在的某种事物。如某一个人、某一个城市、某一种植物等、某一种商品等等。世界万物由具体事物组成,此指实体。如“中国”、“美国”、“日本”等。实体是知识图谱中的最基本元素,不同的实体间存在不同的关系。

  • 语义类(概念):具有同种特性的实体构成的集合,如国家、民族、书籍、电脑等。 概念主要指集合、类别、对象类型、事物的种类,例如人物、动物等。

  • 内容: 通常作为实体和语义类的名字、描述、解释等,可以由文本、图像、音视频等来表达。

  • 属性(值): 从一个实体指向它的属性值。不同的属性类型对应于不同类型属性的边。属性值主要指对象指定属性的值。“面积”、“人口”、“首都”是几种不同的属性。属性值主要指对象指定属性的值,例如960万平方公里等。

  • 关系: 形式化为一个函数,它把 k * k个点映射到一个布尔值。在知识图谱上,关系则是一个把k * k个图节点(实体、语义类、属性值)映射到布尔值的函数。

三. 知识图谱的架构

知识图谱的架构主要包括自身的逻辑结构以及体系架构,分别说明如下。

1. 知识库的逻辑结构

知识图谱在逻辑上可分为模式层与数据层两个层次:

1)数据层主要是由一系列的事实组成,而知识将以事实为单位进行存储。如果用(实体 A,关系,实体 B)、(实体、属性,属性值)这样的三元组来表达事实,可选择图数据库作为存储介质,例如开源的 Neo4j、Twitter 的 FlockDB、Sones 的 GraphDB 等。

2)模式层构建在数据层之上,主要是通过本体库来规范数据层的一系列事实表达。本体是结构化知识库的概念模板,通过本体库而形成的知识库不仅层次结构较强,并且冗余程度较小。

2. 知识图谱的体系架构

知识图谱的体系架构是指其构建模式结构,其中虚线框内的部分为知识图谱的构建过程,也包含知识图谱的更新过程。如下图所示:

在这里插入图片描述
知识图谱构建从最原始的数据(包括结构化、半结构化、非结构化数据)出发,采用一系列自动或者半自动的技术手段,从原始数据库和第三方数据库中提取知识事实,并将其存入知识库的数据层和模式层,这一过程包含:信息抽取、知识表示、知识融合、知识推理四个过程,每一次更新迭代均包含这四个阶段。

知识图谱主要有自顶向下自底向上两种构建方式:

1)自顶向下指的是先为知识图谱定义好本体与数据模式,再将实体加入到知识库。该构建方式需要利用一些现有的结构化知识库作为其基础知识库,例如 Freebase 项目就是采用这种方式,它的绝大部分数据是从维基百科中得到的。

2)自底向上指的是从一些开放链接数据中提取出实体,选择其中置信度较高的加入到知识库,再构建顶层的本体模式。目前,大多数知识图谱都采用自底向上的方式进行构建,其中最典型就是 Google 的 Knowledge Vault。

四. 知识图谱技术概览

下图表示了知识图谱的技术体系,首先在最底层我们有大量的文本、结构化数据库、多媒体文件等数据来源。通过知识抽取、知识融合、知识众包等技术,获取我们需要的数据,而后通过知识表示和知识推理、知识链接等将知识规范有序的组织在一起并存储起来。最终用于知识问答、语义搜索、可视化等方面。

在这里插入图片描述

1. 知识抽取

知识抽取技术,可以从一些公开的半结构化、非结构化的数据中提取出实体、关系、属性等知识要素。

知识抽取主要包含实体抽取、关系抽取、属性抽取等,涉及到的自然语言处理(NLP) 技术有命名实体识别、句法依存、实体关系识别等。

首先从网络上获取大量的各种非结构化的文本数据,经过文本预处理后得到干净的文本数据。而后借助机器学习相关程序对文本进行分词、词性标注、词法解析、依存分析等工作,此时词法及句法层次的分析结束,接下来对该文本进行 命名实体识别 (NER)和实体链接工作,为关系抽取和时间抽取做准备,最终形成KR用的三元组、多元关系、模态知识等构成知识图谱。

在这里插入图片描述

2. 知识表示

知识表示形成的综合向量对知识库的构建、推理、融合以及应用均具有重要的意义。

基于三元组的知识表示形式受到了人们广泛的认可,但是其在计算效率、数据稀疏性等方面却面临着诸多问题。近年来,以深度学习为代表的表示学习技术取得了重要的进展,可以将实体的语义信息表示为稠密低维实值向量,进而在低维空间中高效计算实体、关系及其之间的复杂语义关联

知识表示学习主要包含的 NLP 技术有语义相似度计算、复杂关系模型,知识代表模型如距离模型、双线性模型、神经张量模型、矩阵分解模型、翻译模型等。

下图给出官方推荐的语义网知识表示框架:

在这里插入图片描述

其中最底层的是URI/IRI是网络链接,其上是XML和RDF为资源表示框架。SPARQL是知识查询语言。被蓝色部分覆盖的是推理模块,它包含了如RDFS和OWL这样的支持推理的表示框架。在往上就是trust和interaction部分。

1)RDF
RDF(Resource Description Framework)即资源描述框架,是W3C制定的。用于描述实体/资源的标准数据模型。在知识图谱中,我们用RDF形式化地表示三元关系。(Subject, predicate, object)。例如:

在这里插入图片描述
RDFS在RDF的基础上定义了一些固定的关键词如:Class,subClassOf,type, Property, subPropertyOf, Domain, Range以及多了Schema层。它的表示为:

在这里插入图片描述
2)OWL
OWL(Web Ontology Language), 这个本体就是从哲学那面借鉴来的。OWL在RDF的基础上扩充了Schema层,使它支持推理等操作。如:

在这里插入图片描述
3)SPARQL
SPARQL是RDF的查询语言,它基于RDF数据模型,可以对不同的数据集撰写复杂的连接,由所有主流的图数据库支持。其操作如:

在这里插入图片描述
4)JSON-LD
JSON for Linking Data: 适用于作为程序之间做数据交换,在网页中嵌入语义数据和Restful Web Service。存储格式如:

在这里插入图片描述
5)知识图谱的分布式表示–KG Embedding

其实看到 Embedding这个词我们就知道,它是一个向量嵌入。详细来说就是在保留语义的同时,将知识图谱中的实体和关系映射到连续的稠密的低维向量空间。

在这里插入图片描述

3. 知识融合

由于知识图谱中的知识来源广泛,存在知识质量良莠不齐、来自不同数据源的知识重复、知识间的关联不够明确等问题,所以必须要进行知识的融合。知识融合是高层次的知识组织,使来自不同知识源的知识在同一框架规范下进行异构数据整合、消歧、加工、推理验证、更新等步骤,达到数据、信息、方法、经验以及人的思想的融合,形成高质量的知识库。

在知识融合过程中,实体对齐、知识加工是两个重要的过程。

实体融合(Knowledge Fusion),也叫数据连接(Data Linking)等,目的是在不同的数据集中找出一个实体的描述记录,主要目的是对不同的数据源中的实体进行整合,形成更加全面的实体信息。典型的工具为Dedupe(一个基于python的工具包)和LIMES。

4. 知识推理

知识推理则是在已有的知识库基础上进一步挖掘隐含的知识,从而丰富、扩展知识库。在推理的过程中,往往需要关联规则的支持。由于实体、实体属性以及关系的多样性,人们很难穷举所有的推理规则,一些较为复杂的推理规则往往是手动总结的。对于推理规则的挖掘,主要还是依赖于实体以及关系间的丰富情况。知识推理的对象可以是实体、实体的属性、实体间的关系、本体库中概念的层次结构等。

知识推理方法主要可分为基于逻辑的推理与基于图的推理两种类别。

按照解决方法分类可分为:基于描述逻辑的推理、基于规则挖掘的推理、基于概率逻辑的推理、基于表示学习与神经网络的推理。按照推理类型分类可分为:缺省推理、连续变化推理、空间推理、因果关系推理等等。

5. 知识问答

知识问答(Knowledge-Based Question Answering, KBQA)是基于知识库的问题回答,它以直接而准确的方式回答用户自然语言提问的自动问答系统,它将构成下一代搜索引擎的基本形态。如搜索姚明的身高,就可以给出226cm的回答。其实现流程为:

在这里插入图片描述

6. 知识众包

允许各网站基于一定的方式如RDFa、JASON-LD等方式在网页和邮件等数据源中嵌入语义化数据,让个人和企业定制自己的知识图谱信息。

五. 知识图谱的典型应用

知识图谱为互联网上海量、异构、动态的大数据表达、组织、管理以及利用提供了一种更为有效的方式,使得网络的智能化水平更高,更加接近于人类的认知思维。

基于大规模开放知识库或知识图谱的应用,目前尚处在持续不断的发展与探索的阶段。下面列出了一些国内外比较出色的应用。

1. 语义检索

谷歌公司通过建立 Google Knowledge Graph,实现了对知识的体系化组织与展示,试图从用户搜索意图感知、以及查询扩展的角度,直接提供给用户想要的知识。

2. 智能问答

IBM 公司通过搭建知识图谱,并通过自然语言处理和机器学习等技术,开发出了 Watson 系统。在2011年2月的美国问答节目《Jeopardy!》上,Watson 战胜了这一节目的两位冠军选手,可与1996年同样来自 IBM 的“深蓝”战胜国际象棋大师卡斯帕罗夫产生的影响相提并论,被认为是人工智能历史上的一个里程碑。

3. 领域专家快速生成

构建面向特定领域、特定主题的大规模知识库是实现对某一领域深度分析和计算的重要基础,OpenKN 通过实现端到端的开放知识库构建工具集,实现了在给定部分种子(Seed)的情况下,从无到有的生成领域知识库,进而形成领域专家。

4. 行业生态深度分析与预测

利用开放大数据可以帮助企业发现潜伏在数据中的威胁,将结构化网络日志、文本数据、开源和第三方数据整合进一个单一的环境,屏蔽可疑的信号与噪声,有效保护用户网络,可在信用卡欺诈行为识别、医疗行业疾病预测、电商商品推荐、强化组织数据安全、不一致性验证、异常分析、金融量化交易、法律分析服务等多方面提供有价值的服务。

六. 知识图谱的前景与挑战

在关注到知识图谱在自然语言处理、人工智能等领域展现巨大潜力的同时,也不难发现知识图谱中的知识获取、知识表示、知识推理等技术依然面临着一些困难与挑战,在未来的一段时间内,知识图谱将是大数据智能的前沿研究问题,有很多重要的开放性问题亟待学术界和产业界协力解决。我们认为,未来知识图谱研究有以下几个重要挑战:

  • 知识类型与表示。知识图谱主要采用(实体1、关系、实体2)三元组的形式来表示知识,这种方法可以较好地表示很多事实性知识。然而,人类知识类型多样,面对很多复杂知识,三元组就束手无策了。例如,人们的购物记录信息、新闻事件等,包含大量实体及其之间的复杂关系,更不用说人类大量的涉及主观感受、主观情感和模糊的知识了。
  • 知识获取。如何从互联网大数据萃取知识,是构建知识图谱的重要问题。目前已经提出各种知识获取方案,并已成功抽取大量有用的知识。但在抽取知识的准确率、覆盖率和效率等方面,都仍不如人意,有极大的提升空间。
  • 知识融合。来自不同数据的抽取知识可能存在大量噪音和冗余,或者使用了不同的语言。如何将这些知识有机融合起来,建立更大规模的知识图谱,是实现大数据智能的必由之路。
  • 知识应用。目前大规模知识图谱的应用场景和方式还比较有限,如何有效实现知识图谱的应用,利用知识图谱实现深度知识推理,提高大规模知识图谱计算效率,需要人们不断锐意发掘用户需求,探索更重要的应用场景,提出新的应用算法。

知识抽取

一. 知识抽取的概念

知识抽取,即从不同来源、不同结构的数据中进行知识提取,形成知识(结构化数据)存入到知识图谱。大体的任务分类与对应技术如下图所示:

在这里插入图片描述

1. 知识抽取的子任务

  • 命名实体识别
    • 检测: 北京是忙碌的城市。 [北京]: 实体
    • 分类:北京是忙碌的城市。 [北京]: 地名
  • 术语抽取
    从语料中发现多个单词组成的相关术语。
  • 关系抽取
    王思聪是万达集团董事长王健林的独子。 [王健林] <父子关系> [王思聪]
  • 事件抽取
    例如从一篇新闻报道中抽取出事件发生的触发词、时间、地点等信息,如下图所示。
    在这里插入图片描述
  • 共指消解
    弄清楚在一句话中的代词的指代对象。举例如下图所示。
    在这里插入图片描述

二. 面向结构化数据的知识抽取

所谓结构化数据就是指类似于关系库中表格那种形式的数据,他们往往各项之间存在明确的关系名称和对应关系。因此我们可以简单的将其转化为RDF或其他形式的知识库内容。一种常用的W3C推荐的映射语言是R2RML(RDB2RDF)。一种映射结果如下图所示:
在这里插入图片描述
现有的工具免费的有D2R,Virtuoso、MOrph等。

三. 面向半结构化数据的知识抽取

半结构化数据是指类似于百科、商品列表等那种本身存在一定结构但需要进一步提取整理的数据。

1. 百科类知识抽取

对于百科类数据我们都较为熟悉,下面着重介绍怎么从百科里抽取知识,下图给出从百科里抽取知识的流程介绍

在这里插入图片描述

2. Web网页数据抽取:包装器生成

现在我们的目标网站是部分结构化的,如:

在这里插入图片描述
包装器是一个能够将数据从HTML网页中抽取出来,并且将它们还原为结构化的数据的软件程序。使用它提取信息流程为:

在这里插入图片描述

  1. 包装器归纳
    对于一般的有规律的页面,我们可以使用正则表达式的方式写出XPath和CSS选择器表达式来提取网页中的元素。但这样的通用性很差,因此也可以通过包装器归纳这种基于有监督学习的方法,自动的从标注好的训练样例集合中学习数据抽取规则,用于从其他相同标记或相同网页模板抽取目标数据。其运行流程为:

在这里插入图片描述

  1. 自动抽取
    对于监督学习我们知道标注数据是它的短板,因此我们想到自动抽取的方法。网站中的数据通常是用很少的一些模板来编码的,通过挖掘多个数据记录中的重复模式来寻找这些模板是可能的。自动抽取的流程如图所示:
    在这里插入图片描述

四. 面向非结构化数据的知识抽取

1. 实体抽取

实体抽取抽取文本中的原子信息元素,通常包含任命、组织/机构名、地理位置、时间/日期、字符值等标签,具体的标签定义可根据任务不同而调整。如:
在这里插入图片描述
单纯的实体抽取可作为一个序列标注问题,因此可以使用机器学习中的HMM、CRF、神经网络等方法解决。

2. 实体识别与链接

实体识别即识别出句子或文本中的实体,链接就是将该实体与知识库中的对应实体进行链接。其中涉及到了实体的识别与消岐技术。实体识别技术刚刚介绍过,下面把重点放在实体链接部分。

实体链接的流程如下图所示:

在这里插入图片描述
文字表述为,首先输入的是非结构化的文本数据,经由命名实体识别或词典匹配技术进行实体的指称识别。由于刚刚识别出来的实体可能是实体的部分表示或另类表示,因此需要结束表层名字扩展、搜索引擎、构建查询实体引用表等技术来对候选实体进行生成。经过该步骤生成的实体可能有多个候选项,因此需要对候选实体进行消岐,此处可使用基于图的方法、基于概率生成模型、基于主题模型或基于深度学习的方法。经过实体消岐后得到的唯一实体候选后就可以与知识库中的实体进行链接了。

在这里插入图片描述

3. 关系抽取

关系抽取是从文本中抽取出两个或多个实体之间的语义关系。它是信息抽取研究领域的任务之一。如:

  • 王健林谈儿子王思聪:我期望他稳重一点。
    • 父子 (王健林, 王思聪)

根据关系抽取方法的不同,可以将其分为:

  • 基于模板的方法(触发词的Pattern, 依存句法分析的Pattern)
  • 基于监督学习的方法(机器学习方法)
  • 弱监督学习的方法(远程监督、Bootstrapping)。

1) 基于模板的方法
基于模板的方法在小规模数据集上容易实现且构建简单,缺点为难以维护、可移植性差、模板有可能需要专家构建。

(1) 基于触发词的Pattern
首先定义一套种子模板,如:

在这里插入图片描述
其中的触发词为老婆、妻子、配偶等。根据这些触发词找出夫妻关系这种关系,同时通过命名实体识别给出关系的参与方。

(2)基于依存分析的Pattern
以动词为起点,构建规则,对节点上的词性和边上的依存关系进行限定。一般情况下是形容词+名字或动宾短语等情况,因此相当于以动词为中心结构做的Pattern。其执行流程为:

在这里插入图片描述

2) 监督学习

在给定实体对的情况下,根据句子上下文对实体关系进行预测,执行流程为:

  • 预先定义好关系的类别。
  • 人工标注一些数据。
  • 设计特征表示。
  • 选择一个分类方法。(SVM、NN、朴素贝叶斯)
  • 评估方法。

其优点为准确率高,标注的数据越多越准确。缺点为标注数据的成本太高,不能扩展新的关系。

(1)Pipeline训练

即识别实体和关系分类是完全分离的两个过程,不会相互影响,关系的识别依赖于实体识别的效果,这样的好处的各模型相互独立,设计上较为容易,但误差会逐层传递,步骤太多有可能导致后续不可用。

(2)联合模型

将实体识别和关系分类一起做,在一个模型中完成。

3) 半监督学习方法
前面的监督学习效果虽好,但有标注数据集的获取困难。因此可以借助半监督学习的方法,此处又分为远程监督学习和Bootstrapping方法两种。

所谓远程监督方法就是知识库与非结构化文本对齐来自动构建大量训练数据,减少模型对人工标注数据的依赖,增强模型跨领域适应能力。Bootstrapping是通过在文本中匹配实体对和表达关系短语模式,寻找和发现新的潜在关系三元组。

(1)远程监督
该方法认为若两个实体如果在知识库中存在某种关系,则包含该两个实体的非结构化句子均能表示出这种关系。如在某知识库中存在“创始人(乔布斯,苹果公司)”。那么就认为出现乔布斯和苹果公司的句子就是表述创始人这项关系。因此可构建训练正例:乔布斯是苹果公司的联合创始人和CEO。

远程监督流程为:

从知识库中抽取存在关系的实体对。
从非结构化文本中抽取含有实体对的句子作为训练样例。

远程监督可以利用丰富的知识库信息,减少一定的人工标注,但它的假设过于肯定,如乔布斯被赶出苹果公司。这句话表达的就不是创始人的例子,因此会引入大量的噪声,存在语义漂移现象。同时由于是在知识库中抽取存在的实体关系对,因此很难发现新的关系。

(2)Bootstrapping

这个方法在很多任务中都有提到,其执行流程为:

  1. 从文档中抽取出包含种子实体的新闻,如:
    • 姚明老婆 叶莉 简历身高曝光,即:X 老婆 Y 简历身高曝光
    • 姚明 与妻子 叶莉 外出赴约,即:X 与妻子 Y 外出赴约
  2. 将抽取出的Pattern去文档集中匹配
    • 小猪 与妻子 伊万 外出赴约
  3. 根据Pattern抽取出的新文档如种子库,迭代多轮直到不符合条件

该方法的优点为构建成本低,适合大规模的构建,同时还可以发现新的(隐含的)关系。缺点为对初始给定的种子集敏感,存在语义漂移现象,结果的准确率较低等。

2. 事件抽取

从自然语言中抽取出用户感兴趣的事件信息,并以结构化的形式呈现出来,例如事件发生的时间、地点、发生原因、参与者等。如:

在这里插入图片描述
事件抽取任务最基础的部分包括:

  • 识别事件触发词及事件类型
  • 抽取事件元素同时判断其角色
  • 抽出描述事件的词组或句子

此外,事件抽取任务还包括:

  • 事件属性标注
  • 事件共指消解

对于事件抽取,也可分为Pipeline方法和联合训练的方法。

1) 事件抽取的pipeline方法
有监督的事件抽取方法的标准流程一种pipeline的方法,将事件抽取任务转化为多阶段的分类问题,需要的分类器包括:

  • 事件触发次分类器(Trigger Classifier)
    • 用于判断词汇是否是是事件触发词,以及事件的类别
  • 元素分类器(Argument Classifier)
    • 判别词组是否是事件的元素
  • 元素角色分类器(Role Classifier)
    • 判定元素的角色类别
  • 属性分类器(attribute classifier)
    • 判定事件的属性
  • 可报告性分类器(Reportable-Event Classifier)
    • 判定是否存在值得报告的事件实例

可以看到,这个流程还是蛮长的,因此Pipeline存在的误差传递问题在这里格外严重,因此我们需要联合训练:

在这里插入图片描述
2) 联合训练

在这里插入图片描述

3) 基于深度学习的事件抽取方法
传统的方法需要借助外部NLP工具,还需要人工设计特征,但深度学习可以自动提取句子特征,减少对外部NLP工具的依赖。

下图给出一个典型的基于动态多池化卷积神经网络的事件抽取方法:

在这里插入图片描述

知识表示

​1. 知识表示的概念

知识表示(Knowledge Representation, KR)是知识图谱的核心技术之一,指通过结构化形式对现实世界中的实体、关系和逻辑规则进行编码的过程。其目标是使计算机能够理解和处理人类知识,并支持推理、查询和应用。

典型技术手段:

​三元组(Triple)​:最基础的表示形式,如 (实体A, 关系R, 实体B),例如 (北京, 是省会, 上海)。
​本体论(Ontology)​:如OWL(Web Ontology Language),用于定义概念层级、属性和约束。
​语义网络(Semantic Network)​:通过节点和边表示实体间的关联。
​图神经网络(GNN)​:近年来的扩展,将知识图谱映射为图结构进行深度学习。

​2. 知识表示在知识图谱中的地位

知识表示是知识图谱的基石,贯穿其构建与应用的全生命周期:

​数据整合:将异构数据(文本、数据库、API等)标准化为统一的表示形式。
​知识推理:基于逻辑规则(如传递性)推导隐含知识(例如从“上海是直辖市”推出“上海有市政府”)。
​智能应用:支撑问答系统、推荐系统、风险预测等高阶任务。
​跨领域兼容:通过统一语义(如DBpedia的通用本体)实现跨领域知识共享。

3. 知识表示的技术手段

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值