文章目录
1 简介
论文题目:A Multi-Format Transfer Learning Model for Event Argument Extraction via Variational Information Bottleneck
论文来源:COLING 2022
组织机构:复旦大学
论文链接:https://arxiv.org/pdf/2208.13017.pdf
1.1 动机
- 在不同的事件论元抽取中迁移是一项有挑战的任务,不同数据集的格式不一致,不同数据集的标注不一致。
1.2 创新
- 提出一个统一的模型结构可以从不同格式的事件抽取数据集中学习格式共享和格式具体的知识。
- 使用information bottleneck帮助模型从不同的数据集中学习格式共享的知识,消除不相关的信息,保留格式共享的知识。
2 方法
模型整体框架如上图,输入包括两个数据集(输入为文本、触发词、事件类型),包括三个事件论元抽取器,两个具体格式抽取器和一个共享格式抽取抽取器。
2. 1Basic Prompt-based Extractor
预训练模型为BART,编码器输入中触发词使用<t>和分隔(公式1),解码器输入为prompt和编码器向量表示(公式2),对每个prompt的slot预测对应论元的开始和结束位置(公式3),loss为交叉熵(公式4)。
![]() |
![]() |
![]() |
![]() |
对于输入的两个数据集,使用两个独立的基于prompt的抽取器学习具体格式的句子表示
H
1
(
s
p
e
c
i
f
i
c
)
H_1^{(specific)}
H1(specific)和
H
2
(
s
p
e
c
i
f
i
c
)
H_2^{(specific)}
H2(specific),第三个抽取器学习共享格式的句子表示
H
1
(
s
h
a
r
e
)
H_1^{(share)}
H1(share),然后使用门控机制融合具体格式和共享格式的向量表示(公式1),然后使用这两种向量预测论元span的开始和结束位置,得到两种具体格式的loss,综合记为
L
S
S
P
L_{SSP}
LSSP
2. 1 Shared Knowledge Learning via VIB
在共享模型中加入variational information bottleneck (VIB),捕捉格式共享的知识和忽略格式具体的信息。information bottleneck的目标是学习一个压缩的表示Z,最大化与输出 Y 的互信息,最小化与输入 X 的互信息(公式1, X k X^k Xk为格式具体的信息),使用variational inference计算 I ( X k ; z ) I(X^k;z) I(Xk;z)的上界(公式2),使用重新参数化的方法取样Z(公式3,均值和方差由 H s h a r e d H^{shared} Hshared计算得到),估计互信息为公式4,q(z)为正态分布,计算 I ( Y k ; z ) I(Y^k;z) I(Yk;z)的下界为公式5,loss为公式6( L ( s h a r e d ) L^(shared) L(shared)由Z计算得到)
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
总loss为:
3 实验
实验数据集为ACE2005、RAMS、WiKiEvents,实验结果如下图:
消融实验:
低资源下的表现:
Case Study: