End-to-end Neural Coreference Resolution

本文介绍了一种创新的共指消解模型,通过端到端学习,无需依赖语法解析或手动提及检测,直接优化先行span。模型利用BiLSTM处理上下文和内部结构,结合注意机制确定核心词。实验展示了在不借助传统特征的优势下,模型仍能达到良好效果。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

在这里插入图片描述

Abstract

本文介绍了一个端到端的共指消解模型,在不使用语法解析器或手工设计的提及检测器下,可以达到不错的效果。其关键思想是将文档中的所有span直接考虑为潜在提及,并了解每种可能的先行语的分布。该模型计算span嵌入,该span嵌入结合了上下文相关的边界表示和发现注意机制。

1.Instruction

本文第一次使用了端到端的模型解决共指问题。本文的模型时对所有span空间进行推理,直到最大长度,并直接优化来自gold共参考集群的先行span的边际可能性。它包括一个span排名模型,对每个span,他决定了之前的哪个span是一个很好的先行因素。

2. Model

本文的目标是学习条件概率 P ( y 1 , . . . . , y n ∣ D ) P(y_1,....,y_n|D) P(y1,....,ynD),其最有可能的配置会产生正确的集群。本文对每个span使用多项式的乘积:
在这里插入图片描述
在这里插入图片描述

其中 s ( i , j ) s(i,j) s(i,j)是计算span i 和 span j 指代同一对象的得分。
该得分有三个因素组成:

  1. span i 是否是一个有效提及
  2. span j 是否是一个有效提及
  3. j 是否是 i 的先行语
  4. s m ( j ) s_m(j) sm(j)是判断span i 是一个提及的概率得分
  5. s a ( i , j ) s_a(i,j) sa(i,j)是判断 j 为 i 的先行语的得分

2.1 Scoring Architecture

在这里插入图片描述
该模型的核心是每个可能的span i 的矢量表示 g i g_i gi,在下一节详细描述。
在给定这些span表示的情况下,通过标准前馈神经网络计算评分函数:
在这里插入图片描述

2.2 Span Representations

两种类型的信息对准确预测共指链接至关重要:围绕提及span的上下文和span内的内部结构。本文使用BiLSTM编码每个span内部和外部的词汇信息。在每个span中还包括了对单词的注意机制,以模拟中心词。
在这里插入图片描述
通过BiLSTM进行编码
在这里插入图片描述
句法中心词通常被包含在以前的系统中作为特征,本文不依赖句法特征,而是使用注意力机制对每个span中的单词学习特定任务的headedness概念:
在这里插入图片描述
其中 x i ∧ \overset{\wedge}{x_i} xi表示span i 中单词向量的加权和。 a i , t a_{i,t} ai,t是自动学习的,并且与传统的词义定义密切相关。
将上述span信息连接起来,作为span i 的最终表示 g i g_i gi:在这里插入图片描述

其中 x S T A R T ( i ) ∗ x^*_{START_{(i)}} xSTART(i) x E N D ( i ) ∗ x^*_{END_{(i)}} xEND(i)表示边界表示,保存了span外部的上下文信息。 x ∧ i \overset{\wedge}{x}_i xi表示soft head word向量,保存了span内部信息。 ϕ ( i ) \phi(i) ϕ(i)编码了span i 的特征向量

3. Experiments

在这里插入图片描述

4. 启示

  1. 现在来看是比较老的论文,虽然很老,但是值得一看,尤其是用注意力根据特定任务生成中心词的想法。
### AllenNLP中指代消解功能的实现及模型对比 #### 模型概述 AllenNLP 提供了两种主要的指代消解模型,分别是基于传统机器学习的方法和端到端神经网络方法。这两种方法分别对应不同的应用场景和技术背景。 1. **传统的共指消解模型** 这一模型通常依赖于特征工程以及经典的机器学习算法来完成任务[^2]。尽管这种方法在早期取得了不错的成果,但由于其对人工特征的高度依赖,在面对复杂语境时表现有限。 2. **端到端神经网络模型 (End-to-end Neural Coreference Resolution)** 此模型由 Lee et al., 2017 首次提出,并被集成到了 AllenNLP 的核心功能之中[^4]。该模型通过引入注意力机制和双向 LSTM 来捕捉句子间的上下文关系,从而显著提高了性能。相比传统方法,此模型无需显式的特征提取过程,能够自动从数据中学习有用的表示。 #### 使用方法 以下是针对上述两种模型的具体使用方式: ##### 方法一:加载预训练的传统共指消解模型 对于传统模型,可以通过以下 Python 脚本调用已有的实现: ```python from allennlp.predictors import Predictor import allennlp_models.coref predictor = Predictor.from_path("https://storage.googleapis.com/allennlp-public-models/coref-spanbert-large-2021.03.10.tar.gz") result = predictor.predict( document="John went to the store because he needed milk." ) print(result['clusters']) ``` 这段代码展示了如何利用 `Predictor` 类加载并预测文档中的共指链。 ##### 方法二:应用端到端神经网络模型 为了使用更先进的端到端模型,可以采用如下配置文件定义参数,并执行训练脚本: ```json { "dataset_reader": { "type": "conll-coref" }, "model": { "type": "coreference-resolution", "mention_detector": { "type": "bidirectional-max-pooling", "input_dim": 1024, "hidden_dim": 512 } }, "trainer": { "num_epochs": 20 } } ``` 随后运行命令启动训练流程: ```bash allennlp train config.jsonnet -s /tmp/my_model/ ``` 这里需要注意的是,具体路径需根据实际环境调整[^3]。 #### 性能比较 | 特性 | 传统模型 | 端到端模型 | |-------------------|----------------------------|--------------------------------| | 数据需求 | 较少 | 大量标注数据 | | 训练时间 | 更短 | 显著增加 | | 准确率 | 中等水平 | 当前最优(F1 提升约 3%以上) | 综上所述,虽然传统模型简单易用,但在效果方面已被端到端模型超越;而后者凭借强大的泛化能力和更高的精度成为当前主流选择。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

「已注销」

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值