基于 BERT 的非结构化领域文本知识抽取

原创

于 2024-07-10 20:42:59 发布 · 1.4k 阅读

20 ·

CC 4.0 BY-SA版权

文章标签：

#bert #人工智能 #深度学习

文章目录

- 题目
- 摘要
- 方法
- 实验

题目

食品测试的大型语言模型

论文地址：https://arxiv.org/abs/2103.00728

摘要

随着知识图谱技术的发展和商业应用的普及，从各类非结构化领域文本中提取出知识图谱实体及关系数据的需求日益增加。这使得针对领域文本的自动化知识抽取颇有意义。本文提出了一种基于 BERT 的知识抽取方法，用于从非结构化的特定领域文本（例如保险行业的保险条款）中自动抽取知识点，以达到在构建知识图谱的过程中节约人力的目的。不同于常用的按照规则、模板或基于实体抽取模型的知识点抽取方法，本文将领域文本的知识点转化为问答对，以答案所在的位置前后的文本为上下文，以 BERT 基于 SQuAD 数据进行阅读理解任务的方式进行微调。用微调后的模型从更多保险条款中自动抽取知识点，获得了良好的效果。

方法

近年来随着各行业数字化转型的深入，相关电子文本数量与日激增。与此同时，越来越多的企业开始重视数据分析、挖掘以及数据资源的开发利用，诸如知识图谱，智能对话等计算机应用系统已经成为了各类企事业单位对内对外提供服务的基础。这类应用往往需要从各类非结构化领域文本中提取出其蕴含的结构化信息，用于数字化知识库的构建。数据是计算机产品和服务的基础，为计算机提供数据成为了新时期企事业单位发展的新任务。企事业单位中原有的各类商务、业务文档资料蕴含了丰富的知识和信息，却都是为了人类阅读而撰写，相对于计算机程序的需求，多了很多的冗余信息。目前，在应用这类数据时，基本上需要投入大量人力，通过阅读文档人工抽取出所需信息，并将其表示成计算机能够读取（“理解”）的形式。如此造成了许多额外的学习成本和人力资源消耗。如何采用自动化的手段从非结构化的文本数据中发现知识，用以作为各种智能化应用所依存的数据资源，是知识抽取领域的研究热点。本文以特定领域的非结构化文本为研究对象，提出了通过基于深度学习的语言理解模型对其进行知识抽取的方法。这一方法将待抽取知识点以问题-答案对形式呈现，并以人工标注数据作为训练数据，在预训练模型的基础上进行迁移学习，通过微调（Fine Tuning）获得在同领域文本上自动抽取知识点的模型。

对于具有统一结构规范的文档，可以采用构建规则的方式进行知识抽取。规则的构建往往通过人工的归纳总结来完成——即阅读大量同领域文本，从中选取，总结出最终的抽取规则。Jyothi等人使用基于规则的方式从大量个人简历中抽取有效信息，构建数据库。JunJun等人用类似的方法从学术文献中提取学术概念知识。这种方法的优点是不需训练模型，简单高效；缺点也很明显，我们构建的规则仅适用于相同结构的文本，而且必须具有较严格的格式规范，一旦文本结构稍有改变，就需要人工构建新的知识抽取规则，因此该方法不具备可移植性。

知识抽取的一种任务称为实体提取，即从文本中抽取预先定义的标签内容，如时间，地点等，具体标签根据应用而定，其中最常用的一种知识抽取称为命名实体识别（named entity recogniti