信息抽取在知识图谱构建中的实践与应用

本文探讨了信息抽取在知识图谱构建中的应用,从概念辨析到技术路径,再到实践总结。百分点公司利用自然语言处理技术进行信息抽取,构建行业知识图谱,涉及实体抽取、关系抽取、事件抽取等方面,应用于法律百科、警务文本等领域,取得理想效果。知识图谱通过结构化非结构化文本,为行业提供了更好的数据组织和理解能力。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

编者按

坦率地讲,各行各业对如何落地知识图谱这个问题,或多或少都心存一丝疑惑。人类知识和机器可理解的知识有什么区别?知识图谱如何突破自身局限性,从“万事通”转为“科学家”?北京百分点信息科技有限公司认知智能实验室在实践探索中,通过利用自然语言处理技术获取结构化的信息抽取能力,探索出了一套行业知识图谱构建流程方法。尤其是基于深度迁移学习,帮助构建法律百科词条、公安文本知识图谱等行业项目中,在实体抽取、关系抽取、事件抽取等方面都取得了理想的实践效果。本文将从概念辨析、技术路径、实践总结,由虚到实、由浅入深引导大家理性看待知识图谱技术的能与不能,以更好地在实践中运筹帷幄。

本文作者:陈肇江、王勋、陈旭、吴永科、苏海波

信息抽取、知识图谱及自然语言处理

  1. 信息抽取的内涵与外延

新基建的大潮涌中,人工智能、大数据与5G应用是人们竞相追逐的灯塔,在描绘数字经济时代宏伟蓝图的时候,知识图谱与自然语言处理成为追捧的香饽饽。

如何从海量的文本或网页的原始数据中提取有价值的信息是行业知识图谱构建的关键因素,信息抽取(Information Extraction,IE)作为自然语言处理技术的任务,该任务的重点在于从机器可读取的非结构化或半结构化的文本中抽取信息,最终以结构化的形式进行描述,使信息可以存入数据库以供进一步处理。

在下文探讨信息抽取技术之前,首先厘清几个重要概念的内涵与外延,方便读者更加清晰地理解本文的意图。

1.1 知识与知识图谱:人类知识和机器可理解的知识有什么区别?

哲学家柏拉图把知识定义为确证的真信念(Justified True Belief),满足该定义的知识具有三个要素:合理性(Justified)、真实性(True)、被相信(Believed)[1]。柏拉图三要素原则是哲学界对于知识定义的主流观点,即人类的知识是通过观察、学习和思考有关客观世界的各种现象而获得和总结出的所有事实(Facts)、概念(Concepts)、规则或原则(Rules&Principles)的集合。人类发明了各种手段来描述、表示和传承知识,如自然语言、绘画、音乐、数学语言、物理模型、化学公式等,可见对于客观世界规律的知识化描述对于人类社会发展的重要性[2]。

知识图谱(Knowledge Graph)以结构化的形式描述客观世界中概念、实体及其之间的关系,将互联网的信息表达成更接近人类认知世界的形式,提供了一种更好地组织、管理和理解互联网海量信息的能力[3]。知识图谱本质上是以三元组结构(主语-谓语-宾语)表示实体及实体关系的语义网络,谷歌公司于2012年重新提出了知识图谱的概念以保持其在智能搜索引擎的领先地位。时任谷歌副总裁阿密特·辛格(Amit Singhal)指出知识图谱是“Things,Not Strings”,在此之前搜索引擎是通过爬取网页并基于关键词返回网页排序结果,而基于知识图谱得到的是与关键词有关联的表示真实世界中的实体的图文描述信息。

在行业的实践中之所以对知识图谱期望太高,是因为人类知识和知识图谱这两个概念容易引起歧义:人类知识包括原理、技能等高级知识,而知识图谱源自语义网络、本体论,借助RDF三元组及模式(schema)的形式构建计算机可理解、可计算的实体及实体之间关联的事实性知识库,即图谱可形象地称作“万事通”而非“科学家”。

1.2 知识获取、知识抽取与信息抽取的区别与联系

行业用户往往希望,结构化的知识靠AI自动化构建,不用介入任何人工,即可产生低成本、高质量的知识,然而这些是不切实际的幻想。因此,这里要正本清源,辨析知识图谱的常规的获取知识方式。

知识获取是组织从某种知识源中总结和抽取有价值的知识的活动(GB/T23703定义)[4],我们认为,根据该定义,知识获取强调的是获取知识的一种活动,包括从结构化、半结构化和非结构化的信息资源中提取出计算机可理解和计算的结构化数据,以供进一步分析和利用。因此,其范围应包括知识抽取和信息抽取。

知识抽取,即从不同来源、不同结构的数据中进行知识提取,形成知识(结构化数据)存入到知识图谱[2]。信息抽取,即从自然语言文本中抽取指定类型的实体、关系、事件等事实信息,并形成结构化数据输出的文本处理技术[5]。

数据、信息和知识的关系为:信息是存在于数据(数字、文本、图像等)中的反映客观世界的实体,通过提炼、加工建立实体之间的联系形成了知识,知识是对世界客观规律的归纳和总结。因此,知识抽取在方法上包括了信息抽取和ETL(数据仓库),但方法不局限于结构化信息的生成或关系数据库模式(schema)的直接转换,还需借助本体库或自动方法归纳新的模式。

在本文中,知识抽取和信息抽取的内涵与外延近乎等价,两者都是应用自然语言技术从文本获取实体、关系、属性和事件知识。

在这里插入图片描述

图1 知识相关概念的包含关系

总的来说,知识、知识图谱、知识获取、知识抽取、信息抽取这些概念逐层递进,以一张韦恩图表示(如图1所示):知识的表示、获取和处理是人类特有的能力,知识图谱架起了一座基于人类知识和计算机获取认知能力的桥梁,知识获取涵盖了产生机器可理解的知识的活动,知识抽取强调通过数据模式组织三元组知识,而信息抽取是借助自然语言处理技术生产知识的能力。信息抽取是知识工程、大数据、机器学习、自然语言处理的交叉技术。下文将重点探讨信息抽取在知识图谱的应用与实践。

  1. 融合信息抽取的知识图谱构建范式

近年来,自然语言处理技术的飞速发展尤其是深度迁移学习技术给方兴未艾的知识图谱注入了一针“强心剂”。预训练语言模型性能的提升降低了从海量的非结构化文本中获取知识的成本,推动了知识图谱在行业企业的落地应用。

如图3所示的体系架构,百分点公司在行业知识图谱的实践应用中,信息抽取技术占据着核心地位。行业知识图谱构建的生命周期历经知识定义、知识获取、知识融合、知识存储、知识应用多个环节,这些过程的每一步都需要专业的信息处理技术与技能才能完成。下面重点阐述信息抽取相关的知识定义及知识获取环节内容。

在这里插入图片描述

图2 融合信息抽取的知识图谱构建流程

2.1 知识定义

传统的知识工程研究领域人们以本体、主题词表、元数据、数据模式来建立结构化的知识,在本文知识定义泛指结构化的数据模型,即通过构建图谱模式(schema)规范数据层的表达与存储。数据模型是线状或网状的结构化知识库的概念模板,知识图谱一般采用资源描述框架(RDF)、RDF模式语言(RDFS)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值