自动文摘（Automatic document summarization）方法综述（四）——基于神经网络的（neural summarization）方法

最新推荐文章于 2022-07-30 14:27:42 发布

zxhohai

最新推荐文章于 2022-07-30 14:27:42 发布

阅读量4.6k

点赞数 4

分类专栏：自动文摘深度学习 NLP 文章标签： nerual document model seq2seq automatic deep learning

本文链接：https://blog.youkuaiyun.com/hohaizx/article/details/83506270

版权

NLP 同时被 3 个专栏收录

14 篇文章

订阅专栏

深度学习

10 篇文章

订阅专栏

自动文摘

4 篇文章

订阅专栏

前三篇博客（一）、（二）、（三）总结了抽取式自动文摘的一些经典方法，传统抽取式自动文摘方法将文档简单地看作是一组文本单元（短语、句子等）的集合，忽略了文档所表达的全局语义，难免“断章取义”。随着算力的提升，深度学习在很多应用中非常的火热也取得了state-of-the-art的性能，因此，将神经网络模型引入自动文摘任务是理所当然的，将文档用神经网络模型进行表示被称为神经文档模型（neural document model），neural document model采用低维连续向量表示文档语义信息非常有效。这篇博客将介绍几种经典的neural document model。

1、DocRebuild

该模型是北京大学发表在COLING2016上的一篇文章中提出来的，通过一个neural document model将文档用摘要句进行重构，同时保证选取的摘要句最小化重构误差（construction error）。

An Unsupervised Multi-Document Summarization Framework Based on Neural Document Model
在模型中，文档集中每一篇文档用neural document model表示，然后取平均作为文档集内容的表示。文档集内容重构包括：1）选取摘要句，并将摘要句用文档模型进行表示。2）计算重构误差。因此，多文档摘要任务转化成最优化问题，目标函数是最小化重构误差，选择的摘要句需满足这个误差最小。下图展示了DocRebuild的框架：

① neural document model是该框架的基础，直接决定了模型的性能。文中作者分别采用了两种非监督文档模型：Bag-of-Words(BoW)和Paragraph Vector(PV)。在BoW中，作者简单采用词袋模型，没有考虑单词之间的顺序和关系，每一个单词被表示成相应的word embedding，文档被表示成成单词向量的加权平均。PV模型是另一种文档模型，考虑了单词顺序。具体的可以参考word2vec和Paragraph Vector的论文。

② 在定义目标函数之前，需要定义如下符号： $D=\{d_1,d_2,\dots,d_n\}$ 表示多文档集， $D$ 中的文档都被处理成句子集合。 $C=\{s_1,s_2,\dots,s_m\}$ 表示候选句子集。 $S=\{s_1^*,s_2^*,\dots,s_l^*\}$ 表示摘要句子集，满足 $S\subset C$ ， $|S|\ll |C|$ 。 $\theta$ 表示摘要长度限制。重构误差通过摘要向量和文档向量之间的距离衡量：
$\begin{aligned} &\min_{S\subset C}\enspace ||DM(S^*)-\frac{1}{n}\sum_{i=1}^nDM(d_i)||_2^2\\ &s.t.\quad\: len(S^*)\leq\theta \end{aligned}$

其中， $D M$ 表示文档模型处理过程， $S^*$ 表示 $S$ 相应的摘要序列， $len(S^*)$ 表示摘要序列的长度。

③ 选择最优摘要集是一个NP-hard问题，在文中，作者提出了两种策略用于句子选择的效率和有效性。
句子过滤 $\quad$ 这个策略主要用于缩减搜索空间，通过过滤掉无关的噪声句，保留最有价值的句子作为候选句（candidate set），同时删除噪声句也有助于文档表示。具体地，作者首先对句子进行排序然后选取top-ranked句子作为候选。
BeamSearch Algorithm $\quad$ 为了提高搜索效率，作者提出了BeamSearch算法，算法的伪代码如下：

2、NN-SE

该模型由Cheng和Lapata在ACL 2016上提出：Neural Summarization by Extracting Sentences and Words。该论文中既提出了句子基于句子抽取的模型NN-SE，也提出了基于单词抽取的模型NN-WE，本博客中只讨论NN-SE。在判断一个句子是否属于摘要句时，传统方法依靠的是人工构建的特征。这篇文章中，作者提出了一个基于神经网络和连续句子特征的数据驱动方法。基于神经网络的方法的核心是一个encoder-decoder结构，encoder读取源序列并编码成一个连续向量，然后decoder从中生成目标序列。在decoder阶段，注意力机制（attention mechanism）通常被用来定位焦点区域（locate the focus）。

问题描述 $\quad$ 对一篇文档 $D=\{s_1,s_2,\dots,s_m\}$ ，基于句子抽取的自动文摘希望选取一个包含 $j$ 个句子 $(j < m)$ 的子集形成摘要。我们可以对 $D$ 中每一个句子打分，然后预测一个标签 $y_L\in\{0,1\}$ 指示其是否属于摘要句。对于有监督学习，目标函数可以设定为最大化所有句子标签 $\bold{y_L}=(y_L^1,y_L^2,\dots,y_L^m)$ 的似然：
$\log p(\bold{y_L}|D;\theta)=\sum_{i=1}^m\log p(y_L^i|D;\theta)$

NN-SE的关键成分包括一个基于神经网络的层次文档读取器（document reader）和一个基于注意力的层次内容抽取器（content extractor）。层次结构天然符合文档由单词、句子、段落甚至更大的单元合成。

Document Reader

作者首先采用一个单层卷积神经网络（CNN）和max-pooling操作获得句子级的向量表示。之后，采用一个标准的循环神经网络（RNN）建立文档向量表示。Convolutional Sentence Encoder $\quad$ 采用CNN进行句子表示主要有两个原因：①单隐层神经网络能够高效训练（没有长期依赖）；②CNN已经被成功地应用到句子级的分类任务中。假设 $d$ 表示word embedding的维度， $s=(w_1,\dots,w_n)$ 表示文档中的句子，因此一个句子可以表示成一个稠密矩阵 $W\in \mathbb{R}^{n\times d}$ 。接着就可以采用一个宽度为 $c$ 的卷积核 $K\in \mathbb{R}^{c\times d}$
$f_j^i=\tanh(W_{j:j+c-1}\otimes K+b)$

其中 $\otimes$ 表示矩阵的哈达马积（乘积）并求和所有元素。 $f_j^i$ 表示第 $i$ 个特征图的第 $j$ 个元素， $b$ 是偏置。采用最大池化操作获得一个单一特征（第 $i$ 个特征）：
$s_{i,K}=\max_jf_j^i$

实践中，在每个卷积核上，作者采用多个特征图计算了 $d$ 个特征，作为句子向量。同时，作者也采用了多个不同宽度的卷积核得到多个句子向量。最后，这些句子向量累加作为最终的句子表示。如下图sentence encoder阶段所示

Recurrent Document Encoder $\quad$ 在文档级别，作者采用了一个循环神经网络组合句子向量序列为一个文档向量。循环神经网络作者采用的是LSTM，假设一篇文档表示为 $d=(s_1,\dots,s_m)$ ，在 $t$ 时刻隐藏层 $h_t$ 计算如下：
$\begin{bmatrix} i_t \\ f_t \\ o_t \\ \hat{c}_t \end{bmatrix}= \begin{bmatrix} \sigma \\ \sigma \\ \sigma \\ \tanh \end{bmatrix}W\cdot \begin{bmatrix} h_{t-1} \\ s_t \end{bmatrix}$

$c_t=f_t\odot c_{t-1}+i_t\odot\hat{c}_t$

$h_t=o_t\odot\tanh(c_t)$

Sentence Extractor

在标准的sequence-to-sequence模型中，注意力机制作为生成下一个输出的一个中间环节，用来决定哪一块输入区域需要更加关注。相反地，本文中的句子抽取器（sentence extractor）在读入句子之后直接抽取显著的句子，抽取器是另一个循环神经网络，用来对句子进行标注，抽取器不仅考虑了每个句子的相关性，同时也考虑句子之间的冗余性。document reader和sentence extractor的完整结构如下图所示

在决定下一个标注时，同时考虑文档编码和之前句子的标签。假设encoder的隐藏层状态为 $(h_1,\dots,h_m)$ ，抽取器的隐藏层状态为 $(\bar{h}_1,\dots,\bar{h}_m)$
$\bar{h}_t=LSTM(p_{t-1}s_{t-1},\bar{h}_{t-1})$

$p(y_L(t)=1|D)=\sigma(MLP(\bar{h}_t:h_t))$

其中， $M L P$ 是一个多层神经网络，输入为 $\bar{h}_t$ 和 $h_t$ 的拼接， $p_{t-1}$ 表示extractor多大程度上认为前一个句子应该被抽取。在实践中，模型的训练和测试存在一个矛盾：在训练阶段，我们知道前一个句子的真实标签 $p_{t-1}$ ，然而在测试阶段， $p_{t-1}$ 是未知的，需要预测的。这个矛盾会造成预测误差的快速积累，特别是当错误发生在标注的早期。为了解决这个问题，作者采用了curriculum learning strategy：在训练的开始时，当 $p_{t-1}$ 没有正确预测，就将其改为正确的标签。

SummaRuNNer

SummaRuNNer由Nallapati等人在AAAI 2017上提出：SummaRuNNer: A Recurrent Neural Network based Sequence Model for Extractive Summarization of Documents。该模型既包含抽取式方法（SummaRuNNer）也包含生成式方法（SummaRuNNer-abs），本博客只讨论抽取式方法（SummaRuNNer）。作者将抽取式摘要看作是一个序列分类问题，采用GRU作为基本序列分类器的基本模块，GRU是一个包含两个门的循环神经网络：更新门 $u$ 和重置门 $r$ ，公式描述如下：
$\begin{aligned} u_j&=\sigma(W_{ux}x_j+W_{uh}h_{j-1}+b_u)\\ r_j&=\sigma(W_{rx}x_j+W_{rh}h_{j-1}+b_r)\\ h_j^{'}&=\tanh(W_{hx}x_j+W_{hh}(r_j\odot h_{j-1})+b_h)\\ h_j&=(1-u_j)\odot h_j^{'}+u_j\odot h_{j-1} \end{aligned}$

其中， $W$ 和 $b$ 是GRU-RNN的参数， $h_j$ 是时刻 $t$ 的实值隐藏层向量， $x_j$ 是相应的输入向量， $\odot$ 是哈达马积（乘积）。下图展示了模型框架图：

模型由一个两层的bi-directional GRU-RNN组成，第一层RNN操作在单词级，计算每个单词的隐藏层状态表示；第二层RNN操作在句子级，输入为word-level层的隐藏层向量经平均池化（average pooling）、首尾拼接而成的向量，得到的隐藏层向量作为文档中句子的表示。最后，sentence-level层隐藏层向量同样先经过平均池化、首尾拼接，然后再经过一个非线性变换，最终的结果作为整个文档的表示：
$d=\tanh(W_d\frac{1}{N_d}\sum_{j=1}^{N_d}[h_j^f,h_j^b]+b)$

其中， $h_j^f$ 和 $h_j^b$ 分别代表第 $j$ 个句子的前向、后向隐藏层状态， $N_d$ 表示文档句子数目， $[]$ 表示向量拼接操作。在分类时，每个句子会按序输入分类器：
$\begin{aligned} P(y_j=1|h_j,s_j,d)=\sigma( W_ch_j&\quad\quad \#(\mathrm{content})\\ +h_j^TW_sd&\quad\quad \#(\mathrm{salience})\\ -h_j^TW_r\tanh(s_j)&\quad\quad \#(\mathrm{novelty})\\ +W_{ap}p_j^a&\quad\quad \#(\mathrm{abs.\enspace pos.\enspace imp.})\\ +W_{rp}p_j^r&\quad\quad \#(\mathrm{rel.\enspace pos.\enspace imp.})\\ +b)&\quad\quad \#(\mathrm{bias\enspace term})\\ \end{aligned}$

其中， $y_j\in \{0,1\}$ ，指示第 $j$ 个句子是否属于文摘句， $h_j$ 是sentence-level隐藏层前向、后向（ $h_j^f,h_j^b$ ）状态的拼接， $s_j$ 是摘要的动态表示，指示在第 $j$ 个句子时，目前摘要的表示，换句话说， $s_j$ 是到句子 $j - 1$ 为止，sentence-level隐藏层状态 $h_i$ 的加权求和，权重是他们相应属于摘要句的概率：
$s_j=\sum_{i=1}^{j-1}h_iP(y_i|h_i,s_i,d)$

$W_{ap}p_j^a$ 和 $W_{rp}p_j^r$ 分别表示句子 $j$ 相对于文档的绝对重要度和相对重要度， $p_j^a$ 和 $p_j^r$ 分别表示绝对位置、相对位置嵌入（position embedding），也是模型的参数。训练的目标是最小化负对数似然（negative log-likehood）：
$l(W,b)=-\sum_{d=1}^N\sum_{j=1}^{N_d}(y_j^d\log P(y_j^d=1|h_j^d,s_j^d,d_d))+(1-y_j^d)\log(1-P(y_j^d=1|h_j^d,s_j^d,d_d))$

SWAP-NET

SWAP-NET模型由Jadhav和Rajan在ACL 2018上提出：Extractive Summarization with SWAP-NET: Sentences and Words from Alternating Pointer Networks。该模型创新性的使用一个两层的pointer network建模关键词和显著句之间的相关关系，SWAP-NET既能识别显著句也能识别关键词，然后将两者结合形成抽取式摘要。在我们的常识中，显著句中通常包含关键词，因此，SWAP-NET在选择句子时考虑了关键词的作用，这在以前的工作中是没有尝试的。作者通过一个two-level的encoder-decoder建模这种相互作用，一个用于words，一个用于sentences，同时，作者采用pointer-network建模注意力机制，用于从标注数据中学习重要的词和句子。decoder采用switch mechanism选择单词或句子，最终的摘要由选择的单词和句子综合而成。

输入文档 $D$ 可以写成句子的集合 $s_1,\dots,s_N$ 或者单词的集合 $w_1,\dots,w_n$ 。假设重要单词和句子序列是 $V=v_1,\dots,v_m$ ，其中 $v_j$ 既可以是句子也可以是单词。因此，训练目标可以写作（ $M$ 是模型参数）：
$P(V|M,D)=\prod_jp(v_j|v1,\dots,v_{j-1},M,D)$

SWAP-NET中，作者采用pointer-network表示注意力机制。对于一个包含 $n$ 个向量的序列 $X=x_1,\dots,x_n$ 以及其indices序列 $R=r_1,\dots,r_m$ ， $r_i\in [1,n]$ ，pointer network是一个encoder-decoder结构，目标是最大化 $p(R|X;\theta)=\sum_{j=1}^mp_\theta(r_j|r_1,\dots,r_{j-1},X;\theta)$ ，假设encoder和decoder的隐藏层状态分别是 $(e_1,\dots,e_n)$ 和 $(d_1,\dots,d_m)$ ，attention vector在第 $j$ 次输出时计算如下：
$u_i^j=v^T\tanh(W_ee_i+W_dd_j),\enspace i\in(1,\dots,n)\\ \alpha_i^j=\mathrm{softmax}(u_i^j),\enspace i\in(1,\dots,n)$

注意力机制帮助pointer network选出输入向量中概率最高的那个，因此，在解码阶段，能够有效地pointing输入：
$p(r_j|r_1,\dots,r_{j-1},X)=\mathrm{softmax}(u^j)$

下图展示了SWAP-NET的模型架构

$\mathrm{EW}$ 是单词编码器， $\mathrm{ES}$ 是句子编码器， $\mathrm{DW}$ 是单词解码器， $\mathrm{DS}$ 是句子解码器，输入文档包含单词 $[w_1,\dots,w_5]$ 、句子 $s_1,s_2]$ ，目标摘要序列是 $w_2,s_1,w_5$ 。下面具体介绍每一个模块

Encoder $\quad\mathrm{EW}$ 是一个bi-directional LSTM， $\mathrm{ES}$ 是一个LSTM。在输入之前，每一个单词被表示成一个 $K$ 维向量 $x_i$ （例如：word2vec），word embedding $x_i$ 然后被BiLSTM编码成 $\mathbf{e_i}$ ，最后一个隐藏层状态被用来表示整个句子，随后被 $\mathrm{ES}$ 编码 $\mathbf{E_k}=\mathrm{LSTM}(e_{k^l},E_{k-1})$ ，其中 $k^l$ 第 $k$ 个句子的是最后一个单词的下标， $E_k$ 是第 $k$ 个隐状态。

Decoder $\quad\mathrm{DW}$ 和 $\mathrm{DS}$ 都是LSTM，每一个decoder分别对句子和单词进行pointing，因此可以认为每次decoder的输出是输入encoder的序列的一个下标。假设 $m$ 是每一个decoder的解码步骤数， $\mathrm{DS}$ 生成的下标序列为 $T_1,\dots,T_m$ ， $T_j\in \{1,\dots,N\}$ ； $\mathrm{DW}$ 生成的下标序列为 $t_1,\dots,t_m$ ， $t_j\in \{1,\dots,n\}$ 。

Networks details $\quad$ 在第 $j$ 个解码步骤，采用一个binary switch $Q_j$ 决定是选择句子还是单词， $Q_j=0$ 表示选择单词， $Q_j=1$ 表示选择句子。具体地，首先定义 $\mathbf{h_j}$ 和 $\mathbf{H_j}$ 分别表示 $D W$ 和 $D S$ 第 $j$ 个隐藏层状态：
$h_j=LSTM(h_{j-1},a_{j-1},\phi(A_{j-1}))\\ H_j=LSTM(H_{j-1},A_{j-1},\phi(a_{j-1}))$

其中， $a_j=\sum_{i=0}^n\alpha_{ij}^we_i$ ， $A_j=\sum_{k=0}^N\alpha_{kj}^sE_k$ 。 $\phi$ 表示非线性变换，作者采用的是 $\tanh$ ，用来联系word-level encodings与sentence decoder，sentence-level encodings与word decoder。

第 $j$ 个解码步骤的switch概率 $p(Q_j|v_{<j},D)$ 计算概率如下：
$\begin{aligned} p(Q_j=1|v_{<j},D)&=\sigma(w_Q^T(H_{j-1},A_{j-1},\phi(h_{j-1},a_{j-1})))\\ p(Q_j=0|v_{<j},D)&=1-p(Q_j=1|v_{<j},D) \end{aligned}$

其中， $w_Q$ 是模型参数， $\sigma$ 是sigmoid函数， $\phi$ 是 $\tanh$ 函数。然后定义 $\alpha_{kj}^s=p(T_j=k|v_{<j},Q_j=1,D)$ 表示在第 $j$ 个解码步骤选择第 $k$ 个句子的概率， $\alpha_{ij}^w=p(t_j=i|v_{<j},Q_j=0,D)$ 表示在第 $j$ 个解码步骤选择第 $i$ 个单词的概率，计算公式分别如下：

$\alpha_{ij}^w=\mathrm{softmax}(v_t^T\phi(w_hh_j+w_te_i))\\ \alpha_{kj}^s=\mathrm{softmax}(V_T^T\phi(W_HH_j+W_TE_k))$

$v_t,w_h,w_t,V_T,W_H,W_T$ 是模型参数，最后， $v_j$ 由如下公式确定：
$v_j = \begin{cases} k=\arg \max_kp_{kj}^s &\text{if } \max_kp_{kj}^s>\max_ip_{ij}^w \\ i=\arg\max_ip_{ij}^w &\text{if } \max_ip_{ij}^w>\max_kp_{kj}^s \end{cases}$

$p_{kj}^s=\alpha_{kj}^sp(Q_j=1|v_{<j},D),\\ p_{ij}^w=\alpha_{ij}^wp(Q_j=0|v_{<j},D).$

损失函数定义为：
$l_j=-\log(p_{kj}^sq_j^s+p_{ij}^wq_j^w)-\log p(Q_j|v_{<j},D)$

在每一个解码步骤中，如果第 $j$ 个输出是单词，则 $q_j^w=1,q_j^s=0$ ；如果第 $j$ 个输出是句子，则 $q_j^w=0,q_j^s=1$ 。最终的摘要是由句子组成，因此需要确定每个句子的重要度：
$I(s_k)=\alpha_{kj}^s+\lambda\sum_{w_i\in s_k}\alpha_{il}^w$

在实验中，作者将 $\lambda$ 设置为1，最终的摘要由三句得分最高的句子组成。

NEUSUM

该模型同样发表在ACL 2018：Neural Document Summarization by Jointly Learning to Score and Select Sentences。句子打分和句子抽取是抽取式文摘系统的两个主要步骤，传统的方法将这两个过程独立开来，分别考虑。这篇论文中，作者提出了一个端到端（end-to-end）的神经网络框架联合学习句子打分和句子抽取。首先通过一个多层encoder得到句子表示，然后sentence extractor逐一抽取摘要句。抽取过程中，sentence extractor读入最新被抽取的句子，产生一个新的句子抽取状态，以此作为剩余句子的相对重要度得分。

对于包含 $L$ 个句子的文档 $\mathcal{D}=(S_1,S_2,\dots,S_L)$ ，抽取式摘要试图找出 $\mathcal{D}$ 的一个子集 $\mathcal{S}=\{\hat{S}_i|\hat{S}_i\in \mathcal{D}\}$ 作为摘要。在训练阶段，参考摘要 $\mathcal{S}^*$ 以及摘要 $\mathcal{S}$ 相对于评估函数 $r(\cdot)$ 的得分 $r(\mathcal{S}|\mathcal{S}^*)$ 是已知的。训练目标是学习一个打分函数 $f(\mathcal{S})$ 能够在测试阶段找出最佳摘要：
$\begin{aligned} \arg \max_{\mathcal{S}}&\quad f(\mathcal{S})\\ s.t.&\quad \mathcal{S}=\{\hat{S}_i|\hat{S}_i\in \mathcal{D}\}\\ &\quad |\mathcal{S}|\leq l. \end{aligned}$

其中， $l$ 是输出摘要的长度限制。在之前state-of-the-art的工作中，句子抽取策略主要是 $\text{MMR}$ 和 $\text{ILP}$ 。论文中，作者借用 $\text{MMR}$ 的思想：在给定已抽取句子的情况下，选择能最大化相对收益的句子。因此，模型训练的目标就是学得这个收益打分函数。更进一步，作者采用 $\text{ROUGE F1}$ 作为评估函数 $r(\cdot)$ ，因此，模型需要学得 $\text{ROUGE F1}$ 收益：
$g(S_t|\Bbb{S}_{t-1})=r(\Bbb{S}_{t-1}\cup{S_t})-r(\Bbb{S}_{t-1})$

其中， $\Bbb{S}_{t-1}$ 是已经选择的句子集合，省略了 $r(\cdot)$ 中的条件 $\mathcal{S*}$ 。在每一个时刻 $t$ ，摘要系统选择能最大化 $\text{ROUGE F1}$ 收益的句子，直至达到句子数目限制。下图展示了NEUSUM的架构：

Document Encoding $\quad$ 作者采用一个层次化文档编码器表示文档中的句子，分为sentence-level encoding和document-level encoding。sentence-level encoding读取第 $j$ 个输入句子 $S_j=(x_1^{(j)},\dots,x_{n_j}^{(j)})$ ，采用BiGRU得到句子表示 $\widetilde{s}_j$ ，其中GRU定义如下：
$\begin{aligned} z_i&=\sigma(W_z[x_i,h_{i-1}])\\ r_i&=\sigma(W_r[x_i,h_{i-1}])\\ \widetilde{h}_i&=\tanh(W_h[x_i,r_i\odot h_{i-1}])\\ h_i&=(1-z_i)\odot h_{i-1}+z_i\odot \widetilde{h}_i \end{aligned}$

$W_z,W_r,W_h$ 是权值矩阵。BiGRU由一个前向GRU和一个反向GRU组成，前向GRU从左向右读入word embedding，得到隐状态序列 $(\overrightarrow{h}_1^{(j)},\dots,\overrightarrow{h}_{n_j}^{(j)})$ ；反向GRU从右向左读入word embedding，得到另一个隐状态序列 $(\overleftarrow{h}_1^{(j)},\dots,\overleftarrow{h}_{n_j}^{(j)})$ ：
$\overrightarrow{h}_i^{(j)}=GRU(x_i^{(j)},\overrightarrow{h}_{i-1}^{(j)})\\ \overleftarrow{h}_i^{(j)}=GRU(x_i^{(j)},\overleftarrow{h}_{i+1}^{(j)})\\$

sentence level表示 $\widetilde{s}_j$ 是最后一个前向GRU与最后一个反向GRU隐状态的拼接：
$\widetilde{s}_j=\begin{bmatrix} \overrightarrow{h}_1^{(j)} \\ \overleftarrow{h}_{n_j}^{(j)} \end{bmatrix}$

同样，document level encoder采用另一个BiGRU，输入为 $(\widetilde{s}_1,\dots,\widetilde{s}_{L})$ ，前向GRU和反向GRU分别得到两个因状态序列 $(\overrightarrow{s}_1,\dots,\overrightarrow{s}_L)$ 、 $(\overleftarrow{s}_1,\dots,\overleftarrow{s}_L)$ ，document level表示 $s_i$ 同上：
${s}_i=\begin{bmatrix} \overrightarrow{s}_i \\ \overleftarrow{s}_j \end{bmatrix}$

Joint Sentence Scoring and Selection $\quad$ 给定前一个选择句子 $\hat{S}_{t-1}$ ，sentence extractor通过给剩余句子打分的形式决定下一个要选择的句子 $\hat{S}_t$ 。在对句子打分时，同时考虑其重要度和已经输出的摘要。因此，作者采用另一个GRU作为recurrent unit用来记住已经输出的摘要，采用一个多层感知机（MLP）对句子打分。具体来说，GRU接受前一个选择的句子 $\hat{S}_{t-1}$ 的document level表示 $s_{t-1}$ 作为输入，产生当前隐藏层状态 $h_t$ 。句子打分器是一个两层的MLP，输入是当前隐藏层状态 $h_t$ 以及 $s_i$ ，输出是 $S_i$ 的得分 $\delta(S_i)$ 。
$h_t=GRU(s_{t-1},h_{t-1})\\ \delta(S_i)=W_s\tanh(W_qh_t+W_ds_i)$

其中， $W_s,W_q,W_d$ 是网络参数，当选择第一个句子时，作者对GRU隐藏层状态 $h_0初始化如下$ ：
$\begin{aligned} h_0&=\tanh(Wm\overleftarrow{s}_1+b_m)\\ S_0&=\text{\O}\\ s_0&=\bf{0} \end{aligned}$

对所有句子打分完成后，选择收益值最大的那个：
$\hat{S}_t=\arg\max_{S_i\in \mathcal{D}}\delta(S_i)$

Objective Function $\quad$ 作者采用最优化模型预测 $P$ 与标注训练数据 $Q$ 之间的KL-散度。首先对 $\delta(S_i)$ 归一化得到预测分布 $P$ :
$P(\hat{S}_t=S_i)=\frac{\exp(\delta(S_i))}{\sum_{k=1}^L\exp(\delta(S_i))}$

考虑到标注数据中 $\mathcal{F1}$ 收益值可能是负值，作者采用 $M i n - M a x N o r m a l i z a t i o n$ 将收益值调整到 $[0, 1]$ ：
$g(S_i)=r(\Bbb{S}_{t-1}\cup \{S_i\})-r(\Bbb{S}_{t-1})\\ \widetilde{g}(S_i)=\frac{g(S_i)-\min(g(S))}{\max(g(S))-\min(g(S))}$

然后采用一个附加temperature $\tau$ 的 $\mathrm{softmax}$ 操作生成标注数据的分布 $Q$ 作为训练目标，tempature $\tau$ 是一个平滑因子
$Q(S_i)=\frac{\exp(\tau\widetilde{g}(S_i))}{\sum_{k=1}^L\exp(\tau\widetilde{g}(S_i))}$

因此，最小化 $K L$ 损失函数 $J$ ：
$J=D_{KL}(P||Q)$

总结

基于neural document model的方法，通常将摘要任务看作是一个序列标注问题，采用seq2seq的模式进行求解，首先采用 $(B i) L S T M$ 、 $(B i) G R U$ 循环神经网络或者 $C N N$ 等对句子编码，得到document-level的句子表示，然后同样采用 $R N N$ 进行句子抽取（输出该句子是否属于文摘句），在解码过程中通常也会加入注意力机制。