文字表格信息抽取模型介绍——实体抽取方法：NER模型（上）

原创

已于 2022-08-03 16:59:14 修改 · 1.3k 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #ocr

于 2022-07-01 14:27:33 首次发布

本文介绍了深度学习在命名实体识别(NER)中的三大优势及其实现方法，包括分布式向量输入、上下文编码结构和标签解码结构。讨论了词级别、字符级别和混合信息向量的不同表示方法，并详细阐述了CNN、RNN、递归神经网络和Transformer等上下文编码器的作用。

导读：

将深度学习技术应用于NER有三个核心优势。首先，NER受益于非线性转换，它生成从输入到输出的非线性映射。与线性模型（如对数线性HMM和线性链CRF）相比，基于DL的模型能够通过非线性激活函数从数据中学习复杂的特征。第二，深度学习节省了设计NER特性的大量精力。传统的基于特征的方法需要大量的工程技能和领域专业知识。另一方面，基于DL的模型可以有效地从原始数据中自动学习有用的表示和底层因素。第三，通过梯度下降，可以在端到端的范式中训练深层神经NER模型。该特性使我们能够设计可能复杂的NER系统。

3.1 实体抽取的方法

深度学习是一个由多个处理层组成的机器学习领域，用于学习具有多个抽象层次的数据表示。典型的层次是人工神经网络，由前向传递和后向传递组成。正向传递计算来自前一层的输入的加权和，并通过非线性函数传递结果。向后传递是通过导数链规则计算目标函数相对于多层模块堆栈权重的梯度。深度学习的关键优势在于表示学习的能力以及向量表示和神经处理赋予的语义合成能力。这允许机器输入原始数据，并自动发现分类或检测所需的潜在表示和处理。

一个基于深度学习的NER模型应该具备如下图所示的三部分：

1.分布式向量输入

2.上下文编码结构

3.标签解码结构

3.1.1 分布式向量输入

表示单词的一个简单选项是一维特征向量表示。在一维特征向量空间中，两个不同的单词具有完全不同的表示形式，并且是正交的。分布式表示表示低维实值密集向量中的单词，其中每个维度表示一个潜在特征。分布式表示从文本中自动学习，可以捕获单词的语义和句法属性，这些属性在输入到NER时不会显式出现。接下来，将介绍NER模型中使用的三种分布式表示：单词级、字符级和混合表示。

3.1.1.1. 词级别向量（word-level representation）

一些研究采用了词级别表示法，通常通过无监督算法（如连续词袋（CBOW）和连续skip-gram模型）对大量文本集合进行预训练。《Deep active learning for named entity recognition》和《Design challenges and misconceptions in neural sequence labeling》的研究表明了这种预先训练的单词嵌入的重要性。作为输入，预训练的单词嵌入可以在NER模型训练期间固定或进一步微调。常用的单词嵌入包括Google Word2Vec、Stanford GloVe、Facebook fastText和SENNA。

《Biomedical named entity recognition based on deep neutral network》提出了Bio-NER，这是一种基于深度神经网络架构的生物医学NER模型。在PubMed数据库上使用skip-gram模型对Bio-NER中的单词表示进行训练。这本词典包含了600维向量中的205924个单词。《Toward mention detection robustness with recurrent neural networks》使用word2vec工具包从Gigaword语料库学习英语单词嵌入，并使用BOLT（广泛操作语言技术）的新闻组数据进行增强。

《Neural models for sequence chunking》设计了一个序列组块的神经模型，该模型由两个子任务组成：分割和标记。神经模型可以输入番泻叶嵌入或随机初始化嵌入。

《Joint extraction of entities and relations based on a novel tagging scheme》使用单一模型联合提取实体和关系。该端到端模型使用word2vec tookit在纽约时报语料库上学习的单词嵌入。

《Fast and accurate entity recognition with iterated dilated convolutions》提出了一种基于迭代扩张卷积神经网络（ID CNN）的标签方案。在他们的模型中，查找表是由在SENNA语料库上通过skip-n-gram训练的100维嵌入来初始化的。《Joint extraction of multiple relations and entities by using a hybrid neural network》在他们提出的提取属性及其关系的神经模型中，使用了来自谷歌的经过预训练的300维单词向量。此外，GloVe和fastText也广泛用于NER任务。