中文命名实体识别《Chinese NER Using Lattice LSTM》笔记

最新推荐文章于 2022-10-13 06:00:00 发布

桔梗花语啊

最新推荐文章于 2022-10-13 06:00:00 发布

阅读量1.9k

点赞数 2

分类专栏：命名实体识别文章标签：中文命名实体识别 BiLSTM-CRF LSTM 自然语言处理

本文链接：https://blog.youkuaiyun.com/u013479571/article/details/103534388

版权

命名实体识别专栏收录该内容

4 篇文章

订阅专栏

这篇博文应该是本人至今为止总结的第一篇与自然语言处理相关的论文笔记，初次提笔，难免会有疏漏，还请莫怪。《Chinese NER Using Lattice LSTM》，源码：(PyTorch版)https://github.com/jiesutd/LatticeLSTM，ACL 2018顶会论文。

一、摘要：针对中文命名实体识别提出一种lattice-LSTM模型，该模型能够这么对输入字符序列以及所有匹配语料库的潜在词进行编码。与基于字符方法相比，该模型能够充分利用词和词序列信息；与基于词的方法相比，该模型不存在分割错误问题；门控循环细胞允许该模型从句子中选择最相关的字符和词以提高命名实体结果。在多种数据集上的实验结果表明，Lattice LSTM模型的结果要优于基于词和基于字符的LSTM模型。

二、问题：中文命名实体识别与分词相关，而中文分词界面模糊，容易分词错误，进而造成错误传播。虽然基于字符的方法要优于基于词的方法，但携带的信息有限，未充分利用显式词和词序列信息，而这些信息可能很有用。

三、思路：即考虑如何将字符信息和词信息进行融合，使其能够有效避免分割错误问题。提出采用lattice LSTM结构自动控制从句首到句尾的信息流。

四、方法：

1、该模型采用LSTM-CRF作为主要框架，输入可表示为 $s=c_{1},c_{2},...,c_{m}$ ， $c_{j}$ 表示为第j个字符，s也可进一步视为词序列， $s=w_{1},w_{2},...,w_{n}$ ，表示句子中的第i个词。采用 t(i,k) 表示句子中在第i个词中第k个字符的索引j，采用BIOES标注模式。

2、字符模型，词模型和Lattice模型

2.1 字符型模型：

(1) Char+bichar 字符嵌入连接character bigrams嵌入

$\textup{x}_{j}^{c}=\left [ \boldsymbol{\textbf{e}}^c(c_{j});\textbf{e}^b(c_{j},c_{j+1}) \right ] (3)$

(2) Char +softword 连接分割标签嵌入和字符嵌入

$\textup{x}_{i}^c=\left [ \textbf{e}^c(c_{j});\textbf{e}^s(seg(c_{j})) \right ] (4)$

2.2 词模型

(1) Word+ char LSTM: 词嵌入以及词中字符向量连接并采用BiLSTM进行训练，得出输出 $\textup{x}_{i}^c$ 。

$\textup{x}_{i}^c=\left [ \overrightarrow{\mathbf{h}}_{t(i,len(i))}^c;\overleftarrow{\mathbf{h}}_{t(i,1)}^c \right ] (8)$

(2) Word+char LSTM’: 词嵌入以及词中字符向量连接并采用两个独立的LSTM训练，得出 $\textup{x}_{i}^c$ 。

(3) Word+char CNN: 将CNN作用在每个词的字符序列上以获取字符表示。

，ke=3，为卷积核大小，max为最大池化层；

3、Lattice模型

输入：字符序 $s=c_{1},c_{2},...,c_{m}$ 以及与词库D中匹配的所有字符子序列;

四类向量：输入向量，输出隐层向量，细胞向量 $c_{j}^c$ 和门控向量 $i_{b,e}^c$

不同点在于 $c_{j}^c$ 考虑了语料中词的子序列 $w_{b,e}^d$ 的状态，主要表现如下：

(1)针对每个句子子序列 $\textup{x}_{b,e}^w$ ，其当前状态 $c_{b,e}^w$ 由字符序列b位置的隐层状态 $h_{b}^c$ 和子序列 $\textup{x}_{b,e}^w$ 决定，显然若有输出的话，应作为词级输出， $c_{b,e}^w$ 是作为下个状态 $h_{j}^c$ 的输入， $c_{b,e}^w$ 属于字符级，因此此处无需门控输出。