Named Entity Recognition with Bidirectional LSTM-CNNs论文翻译及理解

本文提出了一种结合双向LSTM和CNN的神经网络模型,用于自动检测命名实体识别任务中的字级和字符级特征,减少了特征工程的需求。模型在CoNLL-2003和OntoNotes 5.0数据集上表现优秀,尤其在OntoNotes上取得了新纪录。实验表明,字符级CNN和词典编码对模型性能至关重要,而词典编码的新方法和部分匹配策略显著提升了模型效果。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

摘要

命名实体识别是一个具有挑战性的任务,传统上需要大量的知识,以特征工程和词典的形式来实现高性能。本文提出了一种新的神经网络结构,该结构使用双向LSTM和CNN混合结构来自动检测字级和字符级特征,从而消除了大多数特征工程的需要。我们还提出了一种新的基于神经网络的部分词汇匹配编码方法,并将其与现有的方法进行比较。广泛的评估表明,如果只给出标记文本和公开可用的单词嵌入,我们的系统在CoNLL-2003数据集上是具有竞争力的,并且以2.13点的F1的优势在ontonnotes 5.0数据集上超过了先前报告的最新性能。通过使用从公共可用的源构建的两个词典,我们在CONLL 2003上的F1得分为91.62,OntoNoteS上为86.28,,超越了使用大量特征工程、专有词典和丰富实体链接信息的系统。

1介绍

命名实体识别是自然语言处理中的一项重要任务。高性能方法主要是将CRF、SVM或感知器模型应用于手工制作的特征。然而,Collobert等人提出了一种有效的神经网络模型,该模型几乎不需要特征工程,而是从大量未标记文本上训练的词嵌入中学习重要特征,最近,无监督学习的大量数据和神经网络训练算法的进步使得这种方法成为可能。

不幸的是,Collobert等人提出的模型有许多局限性。首先,它使用一个简单的前向神经网络,将上下文的使用限制在每个单词周围的一个固定大小的窗口内,这种方法丢弃了单词之间有用的长距离关系。其次,仅仅依赖于单词嵌入,它无法利用诸如前缀和后缀之类的显式字符级特征,这些特征对于很少使用单词嵌入的单词来说尤其有用。我们试图通过提出一个更强大的神经网络模型来解决这些问题。

递归神经网络(RNN)是一种研究得很好的方法,它能处理变长输入并具有长期记忆。近年来,RNNs在语音识别、机器翻译和语言建模等多种NLP任务中取得了巨大成功。具有遗忘门的长-短期存储器单元允许容易地学习高度非平凡的长距离依赖关系。对于NER和语音识别等序列标记任务,双向LSTM模型可以有效地考虑单词两边的无限量上下文,并消除适用于任何前馈模型的有限上下文问题。虽然过去Hammerton(2003)曾对NER任务研究过LSTMs,但是由于缺乏计算能力(这导致使用非常小的模型)和高质量的词嵌入限制了它们的有效性。

卷积神经网络(CNN)也被用于建模字符级信息和其他NLP任务。Santos等人和Labeau等人成功使用CNN提取字符级特征,分别用于NER和POS标记。Collobert等人还将CNNs应用于语义角色标记,该架构的变体已应用于解析,其他需要树结构的任务。然而,对于英文NER任务来说,字符级CNNs的有效性还没有得到评估。我们考虑使用字符级双向LSTMs,这是Ling等人最近提出的用于词性标注的,初步评估表明,它的性能并没有明显优于CNN,同时训练的计算成本更高。

我们的主要贡献在于将这些神经网络模型结合起来用于NER任务。们提出了一个双向LSTMs和CNNs的混合模型,它同时学习了字符和单词级别的特征,首次在成熟的英语语言评估数据集上对这种架构进行了评估。此外,由于词汇对NER性能至关重要,我们提出了一种新的词典编码方案和匹配算法,该算法可以利用部分匹配,并将其与其他方法进行比较。广泛的评估表明,我们提出的方法在CoNLL-2003ner共享任务和ontonnotes5.0数据集上都建立了一个新的技术状态。

2 模型

我们的神经网络受到Collobert等人的工作启发。在他们的研究中,查找表将单词和字符等离散特征转换为连续向量表示,然后将其连接并输入神经网络。我们使用双向长短期存储器(BLSTM)网络,而不是前馈网络。为了归纳字符级特征,我们使用了卷积神经网络,该网络已成功地应用于西班牙语和葡萄牙语NER(Santos et al.,2015)和德语词性标注(Labeau et al.,2015)。
遵循Graves等人提出的语音识别框架。我们使用了一种具有长短期记忆单元的叠加双向递归神经网络,用于将单词特征转换为命名实体标记分数。图1、2和3详细说明了网络。
在这里插入图片描述
图1:用于标记命名实体的(展开的)BLSTM。多个表查找单词级特征向量。CNN(图2)从字符级特征中提取固定长度的特征向量。对于每个单词,这些向量被连接并提供给BLSTM网络,然后提供给输出层(图3)。
在这里插入图片描述
图2:卷积神经网络从每个单词中提取字符特征。字符嵌入和(可选)字符类型特征向量是通过查找表计算的。
在这里插入图片描述
图3:输出层(图1中的“Out”)将输出解码为每个标记类别的分数。

每一个词的特征被输入一个前向LSTM网络和一个后向LSTM网络。每个时间步的每个网络的输出被线性层和log-softmax层解码为每个标签类别的对数概率。然后将这两个向量简单地相加以产生最终输出。

我们尝试了输出层架构的一些小变体,并选择了在初步实验中表现最好的一个。

2.1用BLSTM标记序列

遵循Graves等人提出的语音识别框架。我们使用了一种具有长短期记忆单元的叠层双向递归神经网络,用于将单词特征转换为命名实体标记分数。图1、2和3详细说明了网络。
每一个词的特征被输入一个前向LSTM网络和一个后向LSTM网络。每个时间步的每个网络的输出被线性层和log-softmax层解码为每个标签类别的对数概率。然后将这两个向量简单地相加以产生最终输出。

我们尝试了输出层架构的一些小变体,并选择了在初步实验中表现最好的一个。

2.2利用卷积神经网络提取字符特征

对于每个单词,我们使用卷积和max层从高字符特征向量中提取新的特征向量,例如字符嵌入(第2.3.2节)和(可选)字符类型(第2.5节)。根据CNN的窗口大小,单词两边都填充了一些特殊的填充字符。

CNN的超参数是窗口大小和输出向量大小。
在这里插入图片描述

2.3核心特征

2.3.1单词嵌入

我们最好的模型使用Collobert等人发布的公开的50维单词嵌入。是在维基百科和路透社RCV-1语料库上训练出来的。

我们还对另外两组已发布的embeddings进行了实验,分别是斯坦福的GloVe embeddings对来自维基百科和网络文本的60亿单词进行了训练和谷歌的word2ve cembeddings对来自谷歌新闻的1000亿单词进行了训练。

此外,由于我们假设在域内文本上训练的单词嵌入可能表现更好,我们还使用了公共可用的GloVe程序和word2vec程序的内部重新实现来训练维基百科和 Reuters RCV1数据集上的单词嵌入。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值