面向非结构化文本的信息抽取与NLPIR大数据语义智能分析平台

面向非结构化文本的信息抽取

参考链接:https://zhuanlan.zhihu.com/p/455700987

信息抽取的定义

从自然语言文本中抽取实体、关系等事实信息,并形成结构化三元组<头实体,关系,尾实体>的技术。

信息抽取的任务形式

信息抽取任务通常可由关系集合是否给定分为封闭信息抽取和开放信息抽取两大类。其中,封闭信息抽取又根据实体对是否给定分为关系抽取(分类)和实体关系联合抽取两类。
在这里插入图片描述

封闭信息抽取

关系抽取

基于片段注意力机制的关系抽取
全局理据增强的神经关系抽取(关系理据:实体及上下文关系触发词等指示性信息及其与关系的对应概率)

实体关系联合抽取

相比于关系抽取,实体关系联合抽取不要求给定实体对,而是从文本中直接抽取三元组,其中关系类型来自预先定义的集合。因为不需要指定实体对,所以一段文本中可能会抽取得到多个三元组,不同的三元组彼此重叠。
关系/实体解耦之TPLinker

开放信息抽取

基于面向特定目标实体的开放抽取
基于极大团查找的非自回归式开放抽取方法

如何从非结构化的文本中抽取知识?

参考链接:https://www.zhihu.com/question/59624229

基于Schema的监督学习

固定的Schema关系的抽取是指被发现的关系是来自固定的含有可能关系的列表。
在这种案例中,可用数据是一个句子集,每个句子用从它提取的三元组来标注。这意味着原始文本对应到了文本的知识图谱(KG)。

基于远程监督的Schema

远程监督 ,也称弱监督 ,是指当我们想从文本中抽取关系时,有个初始KG作为种子可以用来提取三元组。 一对实体是由链接他们的KG中的每一个关系弱监督的。当然,这种监督噪声很大,例如句子“巴拉克奥巴马比米歇尔奥巴马大3岁”将被(巴拉克奥巴马,米歇尔奥巴马)的KG实例(和所有其他连接奥巴马和他的妻子的实例)弱标记,但显然这两个关系不相同。 如果我们有很多文本和足够大的KG(含有文本中相同的实体),我们可以学习从原始文本到KG的固定Schema关系的映射。

通用Schema

通用Schema通过嵌入文本中包含的来自种子KG(固定Schema的关系)和开放领域的关系来建立KG。 通用Schema的一个巨大优势是它不需要远程监督。通过学习嵌入来为实体和关系建立语义空间。固定Schema关系的嵌入对于开放域关系来说是相同的:关于两类关系的推断是可能的,KG完善是能够改进的。
OpenIE(开放信息抽取)是一种过滤器和标准化实体之间的原始文本以获得开放域关系的工具。
基于深度学习的通用Schema:嵌入实体之间的文本, 实现泛化到新的开放领域关系的问题。

NLPIR大数据语义智能分析平台(原ICTCLAS)

在线测试地址:https://online.lingjoin.com/#/
此处使用中国民航局官方发布的《型号合格审定程序》AP-21-AA-2022-11文件中的文字来进行测试平台的各项功能,如图所示:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

本地部署NLPIR

直接下载后打开NLPIR-parser.exe,将txt放在演示语料件夹下即可执行。
下载地址:https://github.com/NLPIR-team/NLPIR/

新词发现+关键词提取

**新词发现**:新词发现能从文本中挖掘出具有内涵新词、新概念,用户可以用于专业词典的编撰,还可以进一步编辑标注,导入分词词典中,提高分词系统的准确度,并适应新的语言变化;**关键词提取**能够对单篇文章或文章集合,提取出若干个代表文章中心思想的词汇或短语,可用于精化阅读、语义查询和快速匹配等。

在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

yurous

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值