【论文笔记】Heterogeneous Graph Neural Networks for Extractive Document Summarization

本文探讨了如何使用异质图神经网络(Heterogeneous Graph Neural Networks)来建模句子间的联系,应用于抽取式文档摘要。通过GAT进行节点间消息传递,并在不使用预训练语言模型的情况下,实验结果显示该方法优于其他对比模型。实施过程中,利用GloVe初始化词嵌入,句嵌入则结合CNN和BiLSTM得到,边的权重基于TF-IDF。最终,通过概率排序和Trigram Blocking策略选择摘要句子。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

在这里插入图片描述

文章使用异质图建模句子之间的关系,并将其用于抽取式摘要,取得了优于所有对比模型的效果(本文模型和对比模型均没有使用预训练语言模型,如BERT)。

  • 图的结构
    • 图中包含两类节点:词节点和句节点
    • 句节点与其中包含的词的节点相连接
    • 只有词节点和句节点之间的连接,同类节点之间不会连接
    • 是一个二分图(Bipartite Graph)
  • 节点初始化
    • 词节点
      • 300维的Embedding
      • Vocabulary大小为50000
      • 使用GloVe初始化Embedding
      • 删去停用词和标点符号
      • 删去10%的在整个数据集上具有低TF-IDF的词语
    • 句节点
      • 128维向量
      • 对句子先经过(从小到大不同kernel size的)CNN,再经过BiLSTM,最后连接CNN和BiLSTM的输出作为句节点向量
      • 50维Embedding
      • TF-IDF经L2归一化后乘9(box = 10)round到最近整数,即变换成0-9之一作为embedding index

G A T ( H Q , H K , H V ) : GAT(H_Q, H_K, H_V): GAT(HQ,HK,HV):
Attention Score:  Z = L e a k y R e L U ( W a [ W q H Q ; W k H K ] ) Attention Distribution:  α i j = e x p ( Z i j ) ∑ l ∈ N e i b o r i e x p ( Z i l ) Attention Vector:  u i = σ ( ∑ j ∈ N e i b o r i W v V [ j ] ) \begin{aligned} \text{Attention Score: } Z &= LeakyReLU(W_a[W_q H_{Q}; W_k H_K]) \\ \text{Attention Distribution: } \alpha_{ij} &= {exp(Z_{ij}) \over \sum_{l \in Neibo

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值