论文《Fast and Accurate Entity Recognition with Iterated Dilated Convolutions》

最新推荐文章于 2024-11-28 18:04:55 发布

转载最新推荐文章于 2024-11-28 18:04:55 发布 · 1.9k 阅读

CC 4.0 BY-SA版权

原文链接：http://www.crownpku.com/2017/08/26/%E7%94%A8IDCNN%E5%92%8CCRF%E5%81%9A%E7%AB%AF%E5%88%B0%E7%AB%AF%E7%9A%84%E4%B8%AD%E6%96%87%E5%AE%9E%E4%BD%93%E8%AF%86%E5%88%AB.html

文章标签：

#命名实体识别 #IDCNN #BiLSTM

命名实体识别专栏收录该内容

5 篇文章

订阅专栏

提出了一种基于迭代膨胀卷积神经网络(IDCNN)的快速准确命名实体识别方法，解决了传统CNN在序列标注问题上的局限，通过增加dilationwidth实现了更广阔的输入覆盖，参数线性增加而receptivefield指数增加，有效利用并行计算优势。

论文地址：Fast and Accurate Entity Recognition with Iterated Dilated Convolutions

对于序列标注问题，普通的CNN有一个劣势：卷积之后，末层神经元可能只是得到了原始输入数据中一小块的信息。而对于命名实体识别，整个句子的每个字对当前需要标注的字产生影响。为了覆盖更多的信息，加入更多的卷积层，这样会导致层数越来越深，参数越来越多，为防止过拟合要加入更多的Dropout之类的正则化，带来更多的超参数，整个模型变得庞大和难以训练。

BiLSTM之类的网络结构，能够尽可能的记住全局的信息来对单个字做标注。但问题是，并行计算能力不如CNN强大。

该论文提出了一个dilated CNN的模型。
想法其实很简单：正常CNN的filter，都是作用在输入矩阵一片连续的位置上，不断sliding做卷积。dilated CNN为这片filter增加了一个dilation width，作用在输入矩阵的时候，会skip掉所有dilation width中间的输入数据；而filter矩阵本身的大小仍然不变，这样filter获取到了更广阔的输入矩阵上的数据，看上去就像是“膨胀”了一般。

具体使用时，dilated width会随着层数的增加而指数增加。这样随着层数的增加，参数数量是线性增加的，而receptive field却是指数增加的，可以很快覆盖到全部的输入数据。

在这里插入图片描述