综述
- 此论文采用的Bert-large模型比其他模型(ELMO和BERT-base),在区分相关不同的实体(总裁和首席执行官)上比较出色,模型在document-level context, conversations和mention paraphrasing(提及释义)上需改进。
介绍
- 对比了以前基于Bert的模型,在GAP和OntoNotes上改进明显
- 有两种改进c2f-coref模型的方法:独立变量和重叠变量
- Bert-large使用更大的上下文窗口(384),但是在更长的上下文窗口(512)中表现较差
- 重叠向量企图用更大窗口来改进的失败表明使用更大的窗口进行预训练可能无法将一个下游任务( downstream task)转换为有效的远程特征(effective long-range features),同时,更大的模型加剧了广度的记忆密集性
要解决的问题
- 区分相关但不同的实体,困难在于区分它们需要真实世界的案例(在现实中有关系)
- 代词建模困难
解决方式
- 采用高阶共指模型(c2f-coref)
- 在c2f-coref中用Bert transformer替换 LSTM-based encoder
- 数据集:GAP和OntoNotes
- 独立变量:用不重叠的段来做bert的实例分别做token
- 重叠变量:用重叠的段分别编码,最后放在一起做token