本文声称是第一个神经网络联合模型, 同时抽取实体,关系以及关系类型。在解析句子中每一个词时,同时输出实体标签和关系标签。 另外在特征部分只使用了word_embedding, 没有用POS和dependency tree等其他特征
本文的网络架构是一个输入层,两个输出层(一个输出层用来输出实体标签,一个输出层用来输出关系标签)
在说明文中模型之前,先了解下entity label的形式,实体是由一个或多个token组成的,并且具有不同类型,为了完整表示一个带标签的实体,用BILOU表示实体的开始(Begin),中间位置(Inside), 实体结束(Last)等等, 为了进一步表示实体的标签,将表示实体位置的符号和类型符号进行组合,即B_entitytype, I_entitytype等(entitytype可以是PER,ORG等)。
paper中Figure 1给出了entity label sequence,句中每个token都有一个label
文中关系的每个token的关系标签是有一个tuple表示,原话是:the relation tag is a tuple of pointers to related entities and their respective relation types, 关系tag中每个元组的内容是指针(指针网络)指向的实体和关系类型组成的元组
为了便于解释公式中的字符,我们先来大概说一下本文模型的框架,以及如何对应文中的公式。本文唯一的输入层是 图中 word embeddings(x)层,实体标签输出层是label embeddings(b), 关系输出层attention(p)
实体标签输出:
模型框架是:word embeddings(x) + multi-layer Bi-LSTM(h) + top-hidden layer(z) + softmax(x) + label embeddings(b)
公式表示:
上面两个forward h 和 backard h 是 multi-layer Bi-LSTM(h)的输出
z′′tt 是 top-hidden layer(z)的输入
ztt 是top-hidden layer(z)的输出, bkt−1t−1k 是 label embeddings (b)的输出, 当 t = 0是 bk−1−1k是开始符号类型,给定一个随机初始化值。y{_t}就是针对 t 时刻 token的实体tag
关系 tag 输出:
模型框架:
word embeddings (x) + multi-layer Bi-LSTM(h) + top-hidden layer(z) + relation layer([z:b]) + attention (p)
z 是 top-hidden layer (z) 的输出,是有由(z11, z22, …,zii), dii 是将要被解析出的关系标签的第 i 个隐层状态, uitti 向量的长度为 i (输入序列已解析出实体长度), pitti 就是从index 0 到index i 哪个解析出的实体最可能与第 i 个token 有关系。此处没有考虑关系类型
当考虑关系类型时:
此时, 每个token只有一个关系label, 通过语料分析, 一个实体可能与之前多个实体有关系,在第4小节的Multiple Relations 中有给出解决方案,待消化理解后再填充此部分