基于深度学习的命名实体识别与关系抽取

最新推荐文章于 2024-09-29 22:59:26 发布

原创

最新推荐文章于 2024-09-29 22:59:26 发布 · 3.6k 阅读

17 ·

CC 4.0 BY-SA版权

本文详述深度学习在命名实体识别与关系抽取中的应用，重点解析深度神经网络、循环神经网络、长短期记忆神经网络及卷积神经网络等模型在知识抽取中的角色。从词向量到序列模型数据，再到端到端模型，全面覆盖知识图谱构建的技术流程。

基于深度学习的命名实体识别与关系抽取
【备注：此博文初次编辑为2019年12月19日，最新编辑为2019年12月19日】
摘要：构建知识图谱包含四个主要的步骤：数据获取、知识抽取、知识融合和知识加工。其中最主要的步骤是知识抽取。知识抽取包括三个要素：命名实体识别（NER）、实体关系抽取（RE）和属性抽取。其中属性抽取可以使用python爬虫爬取百度百科、维基百科等网站，操作较为简单，因此命名实体识别（NER）和实体关系抽取（RE）是知识抽取中非常重要的部分，同时其作为自然语言处理（NLP）中最遇到的问题一直以来是科研的研究方向之一。
本文将以深度学习的角度，对命名实体识别和关系抽取进行分析，在阅读本文之前，读者需要了解深度神经网络的基本原理、知识图谱的基本内容以及关于循环神经网络的模型。可参考本人编写的博文：（1）基于深度学习的知识图谱综述；（2）[深度神经网络]；（3）(https://blog.youkuaiyun.com/qq_36426650/article/details/84398458)。
本文的主要结构如下，首先引入知识抽取的相关概念；其次对词向量（word2vec）做分析；然后详细讲解循环神经网络（RNN）、长短期记忆神经网络（LSTM）、门控神经单元模型（GRU）；了解基于文本的卷积神经网络模型（Text-CNN）；讲解隐马尔可夫模型（HMM）与条件随机场等图概率模型（CRF）；详细分析如何使用这些模型实现命名实体识别与关系抽取，详细分析端到端模型（End-to-end/Joint）；介绍注意力机制（Attention）及其NLP的应用；随后介绍知识抽取的应用与挑战，最后给出TensorFlow源码、推荐阅读以及总结。本文基本总结了整个基于深度学习的NER与RC的实现过程以及相关技术，篇幅会很长，请耐心阅读：