End-to-end Neural Coreference Resolution

本文介绍了一种创新的共指消解模型,通过端到端学习,无需依赖语法解析或手动提及检测,直接优化先行span。模型利用BiLSTM处理上下文和内部结构,结合注意机制确定核心词。实验展示了在不借助传统特征的优势下,模型仍能达到良好效果。
部署运行你感兴趣的模型镜像

在这里插入图片描述

Abstract

本文介绍了一个端到端的共指消解模型,在不使用语法解析器或手工设计的提及检测器下,可以达到不错的效果。其关键思想是将文档中的所有span直接考虑为潜在提及,并了解每种可能的先行语的分布。该模型计算span嵌入,该span嵌入结合了上下文相关的边界表示和发现注意机制。

1.Instruction

本文第一次使用了端到端的模型解决共指问题。本文的模型时对所有span空间进行推理,直到最大长度,并直接优化来自gold共参考集群的先行span的边际可能性。它包括一个span排名模型,对每个span,他决定了之前的哪个span是一个很好的先行因素。

2. Model

本文的目标是学习条件概率P(y1,....,yn∣D)P(y_1,....,y_n|D)P(y1,....,ynD),其最有可能的配置会产生正确的集群。本文对每个span使用多项式的乘积:
在这里插入图片描述
在这里插入图片描述

其中s(i,j)s(i,j)s(i,j)是计算span i 和 span j 指代同一对象的得分。
该得分有三个因素组成:

  1. span i 是否是一个有效提及
  2. span j 是否是一个有效提及
  3. j 是否是 i 的先行语
  4. sm(j)s_m(j)sm(j)是判断span i 是一个提及的概率得分
  5. sa(i,j)s_a(i,j)sa(i,j)是判断 j 为 i 的先行语的得分

2.1 Scoring Architecture

在这里插入图片描述
该模型的核心是每个可能的span i 的矢量表示gig_igi,在下一节详细描述。
在给定这些span表示的情况下,通过标准前馈神经网络计算评分函数:
在这里插入图片描述

2.2 Span Representations

两种类型的信息对准确预测共指链接至关重要:围绕提及span的上下文和span内的内部结构。本文使用BiLSTM编码每个span内部和外部的词汇信息。在每个span中还包括了对单词的注意机制,以模拟中心词。
在这里插入图片描述
通过BiLSTM进行编码
在这里插入图片描述
句法中心词通常被包含在以前的系统中作为特征,本文不依赖句法特征,而是使用注意力机制对每个span中的单词学习特定任务的headedness概念:
在这里插入图片描述
其中xi∧\overset{\wedge}{x_i}xi表示span i 中单词向量的加权和。ai,ta_{i,t}ai,t是自动学习的,并且与传统的词义定义密切相关。
将上述span信息连接起来,作为span i 的最终表示 gig_igi:在这里插入图片描述

其中xSTART(i)∗x^*_{START_{(i)}}xSTART(i)xEND(i)∗x^*_{END_{(i)}}xEND(i)表示边界表示,保存了span外部的上下文信息。x∧i\overset{\wedge}{x}_ixi表示soft head word向量,保存了span内部信息。ϕ(i)\phi(i)ϕ(i)编码了span i 的特征向量

3. Experiments

在这里插入图片描述

4. 启示

  1. 现在来看是比较老的论文,虽然很老,但是值得一看,尤其是用注意力根据特定任务生成中心词的想法。

您可能感兴趣的与本文相关的镜像

Wan2.2-T2V-A5B

Wan2.2-T2V-A5B

文生视频
Wan2.2

Wan2.2是由通义万相开源高效文本到视频生成模型,是有​50亿参数的轻量级视频生成模型,专为快速内容创作优化。支持480P视频生成,具备优秀的时序连贯性和运动推理能力

端到端神经网络模型(End-to-End Neural Network Models)是深度学习领域中的一个重要概念,其核心思想在于将整个问题的解决过程整合到一个统一的模型中进行优化,而不需要传统方法中常见的多个独立阶段或预处理步骤。这种方法通过联合学习(joint learning)来优化模型的所有参数,以确保最终输出达到最优效果,而不是在每个阶段中分别优化局部最优解 [^4]。 ### 模型特性 端到端模型的一个显著特点是其训练过程的简洁性和统一性。相比于需要多个独立步骤进行训练的模型,端到端模型可以直接从输入数据(通常是原始数据)映射到最终输出结果,避免了中间步骤可能引入的误差或信息丢失。例如,在文本阅读任务中,只有基于深度神经网络的某些模型(如 [22, 21] 和 CRNN)具备这种端到端可训练的特性,这使得它们在训练过程中更加优雅和高效 [^1]。 ### 应用场景 端到端神经网络模型广泛应用于多种任务,包括但不限于自然语言处理(NLP)、计算机视觉(CV)和语音识别。例如,在序列到序列(Sequence-to-Sequence)学习中,端到端模型被用于将一个输入序列转换为一个输出序列,这种方法在机器翻译和文本摘要等任务中取得了显著成果 [^3]。 ### 优势与挑战 端到端模型的主要优势在于其能够直接优化最终目标,而不是中间步骤的局部最优解。这种联合优化的方式可以提高模型的整体性能,并减少手工设计特征或规则的需求。然而,端到端模型也存在一些挑战,例如需要大量的数据和计算资源来进行训练,以及模型的可解释性较低。 ### 与模型规模的关系 在深度学习的发展过程中,模型规模的扩展(如更大的网络结构、更多的训练数据)被认为是推动该领域成功的关键因素之一。端到端模型通常受益于这种规模扩展,因为它们能够利用大规模数据和复杂网络结构来进一步提升性能 [^2]。 以下是一个简单的端到端模型的示例代码,用于演示如何构建一个端到端的神经网络: ```python import torch import torch.nn as nn class EndToEndModel(nn.Module): def __init__(self, input_size, hidden_size, output_size): super(EndToEndModel, self).__init__() self.layer1 = nn.Linear(input_size, hidden_size) self.relu = nn.ReLU() self.layer2 = nn.Linear(hidden_size, output_size) def forward(self, x): out = self.layer1(x) out = self.relu(out) out = self.layer2(out) return out # 实例化模型 model = EndToEndModel(input_size=10, hidden_size=20, output_size=5) # 定义损失函数和优化器 criterion = nn.MSELoss() optimizer = torch.optim.Adam(model.parameters(), lr=0.01) # 示例数据 input_data = torch.randn(1, 10) target = torch.randn(1, 5) # 前向传播 output = model(input_data) loss = criterion(output, target) # 反向传播和优化 optimizer.zero_grad() loss.backward() optimizer.step() ``` 该代码展示了如何构建一个简单的端到端神经网络模型,并进行训练。通过这种方式,模型可以直接从输入数据中学习到输出结果的映射关系。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

「已注销」

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值