1.1研究动机
切入点是针对当时模型依赖多种人工feature,从而在网络结构,主要是attention设计,以及loss fuction的设计上去针对性的优化。主要设计了input层和pooling层的一个attention方法,另外对loss function也做出了针对性的改进。在semval 2010上达到了88的F1值。
作者对其的描述是:a simple yet effective architecture that does not require dependency parsing or training multiple models, 一个简单却高效的模型,同时不需要依赖解析或者训练多个复杂模型。
2.研究方法
2.1input层
本文看作是对CNN做关系抽取的改进,采用word+pos1+pos2作为输入。
2.2 loss function
loss function最小化了预测输出和真实标签之间的差距,同时最大化了与所选错误类别之间的距离,1即为边界
2.2两种attention
1.基于对角矩阵的主要注意机制用于捕获单词与目标实体的相关性。对于生成的输出矩阵,然后应用卷积运算以捕获上下文信息,例如相关的 n-gram,然后进行最大池化。
2.二级注意力池层用于根据注意力池矩阵从输出中确定用于关系分类的最有用的卷积特征。
具体公式参考:关系抽取专题(三)Relation Classification via Multi-Level Attention CNNs_有莘不殁的博客-优快云博客