知识抽取(Knowledge Extraction, KE)是一种从自然语言文本中提取结构化的知识,并将其存储在知识库中的过程。知识抽取的目标是,通过自动或半自动的方式,将文本数据中的实体、属性、关系、事件等知识元素识别出来,并将其转换为一种标准化和可查询的格式,如三元组、图谱、本体等。知识抽取的挑战是,文本数据的类型、格式、领域、质量等方面存在很大的差异和复杂性,导致知识抽取的任务需要不同的方法和技术,而且很难保证抽取结果的准确性和完整性。知识抽取的现有方法主要分为两类:基于规则的方法和基于机器学习的方法。基于规则的方法依赖于人工编写的规则或模板,来匹配和提取文本中的知识。基于机器学习的方法依赖于大量的标注数据,来训练和应用模型,来预测和提取文本中的知识。
大语言模型(Large Language Models, LLMs)是一种利用大量的文本数据来训练的深度神经网络,它可以生成或理解自然语言,具有强大的表达能力和泛化能力。典型的大语言模型就是ChatGPT(以及GPT4.0)等。
LLMs在零样本学习(Zero-Shot Learning, ZSL)方面有很大的潜力,即在没有任何训练数据的情况下,执行新任务。LLMs可以通过接收一些自然语言提示(Natural Language Prompts, NLPs),来完成不同类型和领域的知识抽取任务。
论文标题:Structured prompt interrogation and recursive extraction of semantics (SPIRES): A method for populating knowledge bases using zero-shot learning
论文地址:https://arxiv.org/abs/2304.02711
这篇论文提出了一种利用大语言模型(LLM)进行零样本学习的方法SPIRES,它可以从自然语言文本中提取结构化知识。SPIRES利用预训练语言模型和简单规则生成解析知识抽取提示。
SPIRES利用预训练的语言模型(GPT-3+)来执行ZSL任务的过程是:

图1:SPIRES架构,其输入是文本与预期的结构化模板,通过OntoGPT产生prompt与GPT3+互动,结合公开数据库生成,产生输入文本中包含的结构化知识
首先,SPIRES根据用户提供的知识模式(Knowledge Schema, KS),生成一个自然语言提示(Natural Language Prompt, NLP),用于向GPT-3+提出问题。知识模式是一种定义了知识元素和关系的结构化表示,如三元组、图谱、本体等。自然语言提示是一种用自然语言表达的问题,用于引导GPT-3+返回符合知识模式的答案。
然后,SPIRES将自然语言提示和输入文本一起发送给GPT-3+,并接收GPT-3+返回的答案。输入文本是包含了目标知识的自然语言文本,如文章、报告、病历等。答案是GPT-3+根据自然语言提示和输入文本生成的自然语言文本,包含了符合知识模式的知识元素和关系。
接着,SPIRES解析GPT-3+返回的答案,将其转换为结构化的知识,并存储在知识库中。结构化的知识是一种符合知识模式的数据格式,如三元组、图谱、本体等。知识库是一种用于存储和查询结构化知识的系统,如数据库、文件、内存等。
最后,SPIRES递归地执行上述步骤,直到完成所有的知识抽取任务。
递归地执行是指SPIRES可以根据已经抽取出来的知识元素和关系,生成新的自然语言提示,并重复上

最低0.47元/天 解锁文章
275

被折叠的 条评论
为什么被折叠?



