A Context-Dependent Gated Module for Incorporating Symbolic Semantics into Event Coreference Resolut

本文提出一种新的共指消解方法,通过上下文相关的门控模型(CDGM)来解决自动抽取的符号特征中存在的噪声和错误问题。该模型能够自适应地控制从符号特征输入的信息,有效提高了共指消解的准确率。

标题、作者

在这里插入图片描述

摘要

动机:

  • 共指消解的输入来自于上游任务的信息抽取的输出,自动抽取的符号特征存在噪声和错误
  • 上下文能提供有用信息

主要贡献

  • 上下文相关的门控模型:自适应地控制从符号特征输入的信息
  • 有噪声的训练模型

结论

在ACE2005和KBP2016数据集上实验

相关工作

利用mention-pair模型计算每个mention之间的距离,然后使用聚类算法,除了触发词特征外,也有使用事件类型、属性、论元等特征,但没有使用上下文embedding,或者只使用了一种符号特征

导言

现有方法

  • 利用有关触发词的特征信息
  • 利用额外的符号特征,如事件类型、属性、论元等
  • 利用上下文无关的词嵌入
  • 简单地直接拼接特征会引入噪声和误差

文中方法

  • 包含广泛的符号特征的通用、有效的方法
  • 利用上下文相关的门控制模型从符号特征中有选择地抽取信息
  • 使用正则化方法随机的在训练过程中加入噪声

模型

预定义

  • 文档 DDDkkk 个事件提及(由预测得出)

  • 每个事件提及 mim_imi 中触发词的起始索引分别为 sis_isieie_iei

  • 每个事件提及 mim_imiKKK 个类别特征,每个类别特征 ci(u)∈{1,2,...,Nu}c_i^{(u)}\in \{1,2,...,N_u\}ci(u){1,2,...,Nu}

  • ACE数据集中利用的符号特征:

    • 类型、极性、形态、指属、时态
  • KBP数据集利用的符号特征:

    • 类型、现实含义
  • 使用OneIE识别事件提及(mentions)及其子类型

  • 使用基于SpanBERT的联合分类模型提取其他符号特征

Single-Mentions Encoder(单个事件提及的编码器)

给定一个文档 DDD ,先使用 Transformer 编码器对输入的每个tokens形成上下文的表示
X=(x1,...,xn),xi∈RdX=(x_1,...,x_n), x_i\in \mathbb{R}^dX=(x1,...,xn),xiRd
对于每个事件提及 mim_imi ,它的触发词的表达 tit_iti 定义为触发词的每个token的平均值:
ti=∑j=sieixjei−si+1t_i=\sum_{j=s_i}^{e_i}\dfrac{x_j}{e_i-s_i+1}ti=j=sieieisi+1xj
另外,使用 KKK 个可训练的embedding矩阵,将每个事件提及 mim_imiKKK 符号特征转为 KKK 个向量

{hi(1),hi(2),...,hi(K)}\{h_i^{(1)},h_i^{(2)},...,h_i^{(K)}\}{hi(1),hi(2),...,hi(K)}

Mention-Pair Encoder and Scorer(事件提及对的编码和得分计算)

  • 给定两个事件提及 mim_imimjm_jmj ,定义它们的触发词对tijt_{ij}tij的表示为:
    tij=FFNNt([ti,tj,ti∘tj])t_{ij}=FFNN_t([t_i,t_j,t_i \circ t_j])tij=FFNNt([ti,tj,titj])
    FFNNtFFNN_tFFNNt是一个前向网络,ti∈Rdt_i\in \mathbb{R}^dtiRdtij∈Rpt_{ij}\in \mathbb{R}^ptijRp∘\circ表示按元素相乘

  • 定义特征对的表示 {hij(1),hij(2),...,hij(K)}\{h_{ij}^{(1)},h_{ij}^{(2)},...,h_{ij}^{(K)}\}{hij(1),hij(2),...,hij(K)}(对应特征的组合)
    hij(u)=FFNNu([hi(u),hj(u),hi(u)∘hj(u)])h_{ij}^{(u)}=FFNN_u([h_{i}^{(u)},h_{j}^{(u)},h_{i}^{(u)} \circ h_{j}^{(u)}])hij(u)=FFNNu([hi(u),hj(u),hi(u)hj(u)])
    FFNNuFFNN_uFFNNu是一个前向网络,hi(u)∈Rlh_i^{(u)}\in \mathbb{R}^lhi(u)Rlhij(u)∈Rph_{ij}^{(u)}\in \mathbb{R}^phij(u)Rp

  • (非最优的方法)将事件提及mim_imimjm_jmj 对的表示为触发词对和特征对的拼接:
    fij=[tij,hij(1),hij(2),...,hij(K)]f_{ij}=[t_{ij}, h_{ij}^{(1)}, h_{ij}^{(2)},...,h_{ij}^{(K)}]fij=[tij,hij(1),hij(2),...,hij(K)]
    直接利用符号特征易引入噪声和误差,于是文中提出新的方法 CDGM

上下文相关的门控模型 CDGM

在这里插入图片描述

给定两个事件提及 mim_imimjm_jmj,利用得到的触发词特征 tijt_{ij}tij 去计算过滤后的特征对表示
hˉij(u)=CDGM(u)(tij,hij(u))\bar{h}_{ij}^{(u)}=CDGM^{(u)}(t_{ij},h_{ij}^{(u)})hˉij(u)=CDGM(u)(tij,hij(u))
其他门控机制,对u∈{1,2,...,K}u\in\{1,2,...,K\}u{1,2,...,K}

  • gij(u)=σ(FFNNg(u)([tij,hij(u)]))g_{ij}(u)=\sigma(FFNN_g^{(u)}([t_{ij}, h_{ij}^{(u)}]))gij(u)=σ(FFNNg(u)([tij,hij(u)]))

  • oij(u),pij(u)=DECOMPOSE(tij,hij(u))o_{ij}^{(u)}, p_{ij}^{(u)}=DECOMPOSE(t_{ij},h_{ij}^{(u)})oij(u),pij(u)=DECOMPOSE(tij,hij(u))

    • pij(u)=hij(u)⋅tijtij⋅tijtijp_{ij}^{(u)}=\dfrac{h_{ij}^{(u)}\cdot t_{ij}}{t_{ij}\cdot t_{ij}}t_{ij}pij(u)=tijtijhij(u)tijtij

    • pij(u)p_{ij}^{(u)}pij(u)hij(u)h_{ij}^{(u)}hij(u)tijt_{ij}tij上的投影,包含tijt_{ij}tij 的信息
      \\[3pt]

    • oij(u)=hij(u)−pij(u)o_{ij}^{(u)}=h_{ij}^{(u)}-p_{ij}^{(u)}oij(u)=hij(u)pij(u)

    • oij(u)o_{ij}^{(u)}oij(u) 正交于 hij(u)h_{ij}^{(u)}hij(u),相当于去除一部分信息

  • hˉij(u)=gij(u)∘oij(u)+(1−gij(u))∘pij(u)\bar{h}_{ij}^{(u)}=g_{ij}^{(u)}\circ o_{ij}^{(u)}+(1-g_{ij}^{(u)})\circ p_{ij}^{(u)}hˉij(u)=gij(u)oij(u)+(1gij(u))pij(u)

FFNNg(u)FFNN_g^{(u)}FFNNg(u)R2×p\mathbb{R}^{2\times p}R2×p映射为 Rp\mathbb{R}^{p}Rp,经过CDGMs的蒸馏后得到事件提及对 mim_imimjm_jmj 的最终表示为:
fij=[tij,hˉij(1),hˉij(2),...,hˉij(K)]f_{ij}=[t_{ij}, \bar{h}_{ij}^{(1)}, \bar{h}_{ij}^{(2)}, ..., \bar{h}_{ij}^{(K)}]fij=[tij,hˉij(1),hˉij(2),...,hˉij(K)]
事件提及 mim_imimjm_jmj 的共指得分 s(i,j)s(i,j)s(i,j) 为:
s(i,j)=FFNNa(fij)s(i,j)=FFNN_a(f_{ij})s(i,j)=FFNNa(fij)
FFNNaFFNN_aFFNNaR(K+1)×p\mathbb{R}^{(K+1)\times p}R(K+1)×p映射为 R\mathbb{R}R

Training and Inference

训练过程

特征预测器的训练精度通常比它在开发/测试集上的精度高得多。如果简单地训练模型而不进行任何正则化,CDGM在训练过程中很少遇到噪声符号特征。因此,为了让CDGM真正学会提取可靠的信号,文中还提出了一种简单但有效的噪声训练方法(具体操作见算法)。

噪声加入算法
  • 输入: 文档 DDD

  • 超参数:{ϵ1,ϵ2,...,ϵK}\{\epsilon_1, \epsilon_2, ..., \epsilon_K\}{ϵ1,ϵ2,...,ϵK}

  • for i=1...ki = 1... ki=1...k do

    • for u=1...Ku = 1 ...Ku=1...K do

      • with prob. ϵu\epsilon_uϵu, replace ci(u)c_i^{(u)}ci(u) by
      • c^i(u)∼Uniform(Nu)\hat{c}_i^{(u)}\sim Uniform(N_u)c^i(u)Uniform(Nu)
    • end

  • end

噪声训练方法不是为了减少传统意义上的过拟合。它的主要功能是帮助CDGM学会从噪声特征中提取可靠的信号

推理过程

给每个事件提及 mim_imi 分配一个 先例 aia_iai,这个先例来自于 mim_imi之前抽取的事件提及或一个假的事件提及
在这里插入图片描述

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值