基于深度学习的知识图谱构建(简要综述)

本文探讨了知识图谱的构建过程,包括实体抽取、关系抽取、实体消歧和关系补全等关键任务,详细介绍了深度学习在这些任务中的应用,如LSTM+CRF在实体抽取中的应用,以及基于LSTM的关系抽取方法。此外,还概述了各任务常用的数据集。

1  简介

       信息技术的发展不断推动着互联网技术的变革,Web技术作为互联网时的标志性技术,正处于这场技术变的核心。从网页的链接到数据的链接,Web技术正在逐步朝向Web之父Berners-Lee设想中的语义网络演变。语义网络是一张数据构成的网络,语义网络技术向用户提供的是一个查询环境,其核心要义是以图形的方式向用户返回经过加工和推理的知识。而知识图谱技术则是实现智能化语义检索的基础和桥梁。

       知识图谱的概念是由谷歌公司在2012年5月17日提出的,谷歌公司将以此为基础构建下一代智能化搜索引擎,知识图谱技术创造出一种全新的信息检索模式,为解决信息检索问题提供了新的思路。本质上,知识图谱是一种揭示实体之间关系的语义网络,可以对现实世界的事物及其相互关系进行形式化地描述。现在的知识图谱已被用来泛指各种大规模的知识库。

       知识图谱通常使用三元组的形式来表示,即,其中是知识库中的实体集合,共包含种不同的实体;是知识库中的关系集合,共包含种不同关系;代表知识库中的三元组集合。三元组的基本形式主要包括<实体1,关系,实体2>和<概念,属性,属性值>等,实体是知识图谱中的最基本元素,不同的实体间存在不同的关系。概念主要指集合、类别、对象类型、事物的种类,例如人物、地理等;属性主要指对象可能具有的属性、特征、特性、特点以及参数,例如国籍、生日等;属性值主要指对象指定属性的值,例如中国、1988-09-08等。每个实体(概念的外延)可用一个全局唯一确定的ID来标识,每个属性-属性值对可用来刻画实体的内在特性,而关系可用来连接两个实体,刻画它们之间的关联。

       知识图谱的架构主要包括自身的逻辑结构以及体系架构。目前,大多数知识图谱都采用自底向上的方式进行构建,其中最典型就是Google的Knowledge Vault,知识图谱体系架构如下图 1所示:

                                                                  图 1 知识图谱的体系架构

       深度学习可以视为“用深度神经网络来做机器学习”的简称。神经网络并不是一个新的概念,而是一种机器学习的方法,是用类似于大脑神经突触联接的结构进行信息处理的数学模型,用来做分类和聚类。卷积神经网络虽然发布的时间较早,但是受硬件计算能力的约束,一直到2006年Hilton解决它的训练问题之后才焕发生机,尤其是2014年以来才大面积的使用,特别是在计算机视觉和听觉领域里大放异彩。

       在自然语言处理的一些领域,循环神经网络(RNN)及其变种长短期记忆网络(简称LSTM)等深度学习算法在处理一些与时间序列相关的文本中,表现卓越。例如,深度学习在中文分词、实体抽取、机器翻译、文档摘要、多轮会话等方面,表现出了强大的能力。只要是对历史时间序列内容进行分析和建模,然后对新数据进行分类预测的问题(例如中文分词和实体抽取),都能转变为对文本中的每一个汉字角色进行分类。在有足够数据积累和训练语料的情况下,深度学习都能以简单粗暴高效的方式解决问题,并且碾压之前的技术手段所取得的效果。

       知识图谱的构建包括三个部分:信息抽取、知识融合和知识加工。其中信息抽取指从各种类型的数据源中提取出实体(概念)、属性以及实体间的相互关系;知识融合指获得新知识之后对其进行整合,以消除矛盾和歧义;知识加工指对要融合的新知识进行质量评估,然后加入知识库,并进行新的关系推理。深度学习在自然语言处理中的杰出表现,可以帮助知识图谱完成这些构建工作。

       本文中,作者从知识图谱的构建过程出发,引出深度学习在知识图谱构建过程中的应用。

2  相关工作

       基于上述介绍,文章在此以实体和关系的表示学习技术为基础,讨论深度学习在实体抽取、关系抽取、实体消歧、关系补全等任务上的应用。

实体抽取

       实体抽取,即命名实体识别(NER)。命名实体识别是从文本中提取出和人名、地名等特定的短语或名称的任务。早期的命名实体识别主要基于规则和词典来进行,对规律性较强的文本环境较为适合,但难以摆脱对领域专家的的依赖,费时费力且难以移植。随着语料数据的增长,研究者逐步将机器学习和统计分析技术应用于命名实体识别,其方法可以分为有监督、半监督和无监督的方法。

       有监督方法基于序列标注思想,结合大量标注语料,定义一系列实体来训练判别模型。传统模型包括隐马尔科夫模型(HMM)、最大熵马尔科夫模型(MEMM) 、条件随机场(CRF)等。在深度学习领域,针对序列标注的思路,研究者将卷积神经网络(CNN)和循环神经网络用于该任务,结合词语的表示学习,取得了优于传统方法的结果。

       半 监 督( 或 弱 监 督) 方 法 主 要 采 用 boot-strapping 技术,只利用很少的标注数据作为种子开始学习,结合大量无标注数据,通过模板、句法分析树等方式迭代地从上下文中发现实体。

       无监督方法则在无标注数据集的情况下,采用聚类等方法,利用类似的上下文推测出类似的概念和实例;或者基于外部知识(如 WordNet 等),完成从一个领域到另一领域的迁移学习。随着文本数据资源的不断丰富,研究者结合词的向量表示和已有的词典等信息,利用词向量之间的相对关系 ( 如v (king) -v(queen) = v(man) -v(woman)) 通过训练词向量和评估词语之间的投射关系矩阵,发现新的上下位实体。

关系抽取

       关系抽取是指从无结构的自然语言文本中找出实体之间的语义关系。早期主要采用基于规则的方法,提前定义关系所对应的结构规则,进行特定领域的关系抽取。而后,主要采用基于特征和核函数的方法,前者主要通过提取文本的语法特征来构建关系的分类器;后者则利用短语句法、依存语法、实体之间路径关系等信息设计相应的核函数,并通过核函数计算两个实例的关系来完成关系抽取。近期,研究者将循环神经网络等深度学习技术应用于关系抽取中。例如,Xu et al提出一种基于 LSTM 循环神经网络的方法,对自然语言语句的依存树中不同实体间的最短依赖路径进行分析,以确定实体间关系的类别,该方法证实了深度神经网络在关系抽取中的有效性。

实体消歧

       实体消歧(Entity Disambiguation)是为了解决实体名的歧义性和多样性问题,在应用中确定出实体名所指向的真实世界实体。实体是文本信息的重要承载,每一段有意义的文本都描述了一组实体及这些实体相互之间的关联和交互。通过识别知识图谱中特定实体在文本中的出现,同时发现文本中知识图谱未覆盖的实体,实体消歧在知识图谱的构建和补全上都起到重要作用。因此,识别并理解文本中的实体信息也就成为了自然语言理解的基础问题之一。

       然而,文本中实体信息的理解存在两方面的挑战。首先,文本中的实体名通常具有歧义。例如,给定如下三个包含“苹果”的句子:1)今 天 上 午 苹 果 由 乔 布 斯 发 布 了 新 一 代iPhone;2)我早餐吃了一个苹果;3)范冰冰在苹果中演的不错。上述三个句子中的 “苹果”分别指向实体“苹果公司”、“水果苹果”及“电影苹果”。其次,实体的提及(mention)形式具有多样性,也就是人们可能会用不同的实体名来指向同一个实体。例如,在提到 IBM 公司时,人们可以使用 IBM、Big Blue 或 International Business MachinesCorporation 等不同名字。

       对于实体歧义造成的影响,国内外的大多熟研究从两个角度进行解决,分别是寻求更高质量的特征和引入外部资源。在特征选取方面,何正焱利用DNN(深度神经网络)方法,提出了一种文档和实体的相似度为框架的消歧模型;姜丽丽提出了一种基于带权图结构的框架来实现人物实体的消歧工作,并使用实体标签对每个人物实体进行标注;Bagga和Baldwin将不同文档间上下文的相似度作为特征实现实体消歧的;R.Bekkerman和A.McCallum则结合了社交网络的链接信息和聚类两种非监督的框架对社交网络中的人物实体进行消歧。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值