创新点
本文引入了文档特征来丰富token的信息,单纯依靠本句子的信息有时候未必足够,可以借助其他句子的信息来进行补充,主要就是结合文档级别的信息,加入到原本的ED任务中。具体建模方法如图1,红框就是补充的文档特征信息,最后与其他信息一起concat到LSTM模型中。但从实验结果来看(如图2),在ACE 2005上是所有方法中效果最好的。
模型
1.The EDODEL Module
通过设计良好的分层和监督的注意机制,从单词和句子两个层次学习文档的分布式表示。
2.The DEED Module
根据学习到的文档嵌入,为每个触发器候选对象标记事件类型。
3.Joint Training of the DEEB-RNN model
联合1和2获得最终的损失函数:
J(θ)=∑∀d∈ϕ(J(y,o)+λE w (α ∗ ,α)+µE s (β ∗ ,β)),
效果
见上图2