NeuSum: 利用神经网络整合打分与句子选择进行文本摘要

最新推荐文章于 2023-09-21 20:17:24 发布

原创最新推荐文章于 2023-09-21 20:17:24 发布 · 1.9k 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#nlp #文本摘要

文本摘要同时被 2 个专栏收录

10 篇文章

订阅专栏

论文

8 篇文章

订阅专栏

本文介绍了一种使用神经网络进行抽取式文本摘要的方法，通过联合学习句子打分与选择，提高模型性能。该方法将句子级和文档级编码相结合，利用GRU网络处理，通过MLP学习ROUGE F1评分。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Neural Document Summarization by Jointly Learning to Score and Select Sentences

Zhou, Q. , Yang, N. , Wei, F. , Huang, S. , & Zhao, T. . (2018). Neural Document Summarization by Jointly Learning to Score and Select Sentences. Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers).

论文地址：https://aclweb.org/anthology/P18-1061

论文代码: https://github.com/magic282/NeuSum Pytorch实现

文章目录

Neural Document Summarization by Jointly Learning to Score and Select Sentences

1 概述

这篇论文讲的是一个使用神经网络来进行抽取式（Extractive）文本摘要的方法。以往的抽取式摘要，句子打分以及选择是独立的两个部分，作者在将打分以及选择联合在一起训练模型，将他们的信息关联起来取得了较好的成绩。

2 问题描述

抽取式摘要直接从原文本中选择合适的句子放在一起作为摘要输出，其问题就是给定一个输入文档 $\mathcal{D}=\left(S_{1}, S_{2}, \ldots, S_{L}\right)$ , 其中包含 $L$ 个句子 $S_{1\to L}$ 。输出是全部句子的子集 $\mathcal{S}=\left\{\hat{S}_{i} | \hat{S}_{i} \in \mathcal{D}\right\}$ ，用来训练的人工摘要为 $S^*$ ，并定义一个打分函数 $f$ ，则抽取式摘要的训练就是求下面的优化问题：
$\begin{array}{ll}{\underset{\mathcal{S}}{\arg \max }} & {f(\mathcal{S})} \\ {\text { s.t. }} & {\mathcal{S}=\left\{\hat{S}_{i} | \hat{S}_{i} \in \mathcal{D}\right\}} \\ & {|\mathcal{S}|} { \leq l}\end{array}$
其中的 $l$ 是输出摘要的句子数量限制。

2 模型

首先将原始文本通过一个层次的Encoder（句子级和文档级），

在这里插入图片描述

2.1 Encoder

2.1.1 Sentence Encode

首先将输入的文档 $\mathcal{D}=\left(S_{1}, S_{2}, \ldots, S_{L}\right)$ 的每个句子 $S_{j}=\left(x_{1}^{(j)}, x_{2}^{(j)}, \ldots, x_{n_{j}}^{(j)}\right)$ 输入一个双向GRU网络（初始状态设为0），得到句子的向量表示 $\widetilde{s}_{j}=[\overleftarrow{h}_{1}^{(j)},\overrightarrow{h}_{n_{j}}^{(j)}]$

2.1.2 Document Encode

将句子级编码后的表示 $\left(\widetilde{s}_{1}, \widetilde{s}_{2}, \ldots, \widetilde{s}_{L}\right)$ 作为输入传入另一个双向GRU网络，得到双向的hidde state $\left(\vec{s}_{1}, \vec{s}_{2}, \ldots, \vec{s}_{L}\right)$ 和 $(\overleftarrow{s}_1,\overleftarrow{s}_2,\ldots,\overleftarrow{s}_L)$ 。合并得到每个句子的文档级表示 $s_i = [\overrightarrow{s}_i,\overleftarrow{s}_i]$ 。

2.2 打分与句子选择

为了能够利用上已经选择的句子的信息，使用GRU进行处理。假如说上一个抽取的句子是 $S_{[t-1]}$ ，则当前步的hidden state为：
$h_{t}=\mathrm{GRU}\left(s_{[t-1]}, h_{t-1}\right)$
每个句子的分数可以按照下面计算：
$\delta\left(S_{i}\right)=\mathbf{W}_{s} \tanh \left(\mathbf{W}_{q} h_{t}+\mathbf{W}_{d} s_{i}\right)$
当选择第一个句子的时候，init state为 $h_{0}=\tanh \left(\mathbf{W}_{m} \overline{s}_{1}+b_{m}\right)$ ，并令 $s_{[0]}=0$ ，这样就可以计算当前每个选择每个句子得到的得分，那么接下来选择分数最大的即可作为时间t选择的句子：
$\hat{S}_{[t]}=\underset{S_{i} \in \mathcal{D}}{\arg \max } \delta\left(S_{i}\right)$

2.3 损失函数

论文中使用相对熵（Kullback-Leibler Divergence，KL散度），比较模型打分分布与Rouge F1打分分布之间的差距。

上一小节得到的分数经过Softmax可以得到其分布：
$P\left(\hat{S}_{t}=S_{i}\right)=\frac{\exp \left(\delta\left(S_{i}\right)\right)}{\sum_{k=1}^{L} \exp \left(\delta\left(S_{k}\right)\right)}$
文本摘要一般使用Rouge来衡量模型性能，论文使用Rouge F1 Score作为基本的分数 $r (.)$ 。并使用gain value（也就是添加某个句子后，Rouge F1分数增加了多少）如下：
$g\left(S_{i}\right)=r\left(\mathbb{S}_{t-1} \cup\left\{S_{i}\right\}\right)-r\left(\mathbb{S}_{t-1}\right)$
其中 $\mathbb{S}_{t-1}$ 是之前选择了的句子们，Rouge是与标准摘要比较得到的分数，这里省略了这个参数。然后对其标准化：
$\widetilde{g}\left(S_{i}\right)=\frac{g\left(S_{i}\right)-\min (g(S))}{\max (g(S))-\min (g(S))}$
同样将这个分数经过Softmax得到其分布，其中 $\tau$ 为平滑因子：
$Q\left(S_{i}\right)=\frac{\exp \left(\tau \widetilde{g}\left(S_{i}\right)\right)}{\sum_{k=1}^{L} \exp \left(\tau \widetilde{g}\left(S_{k}\right)\right)}$
最终得到损失函数：
$J=D_{K L}(P \| Q)$