本篇论文是来自瑞士洛桑联邦理工学院的《A Simple Theoretical Model of Importance for Summarization》,它获得了ACL 2019 的杰出论文奖。作者主要通过建立基于重要性的理论模型来加深对于摘要生成任务的理解,并进一步的改进摘要系统。为了进一步的提升生成摘要的质量,作者提出了四个概念来指导摘要生成的过程:
- Redundancy
- Relevance
- Informativeness
- Importance
生成摘要的一个原则就是在保证某些特性的情况下,尽可能的表述原文中的信息。而信息论中的熵等概念同样也是用来进行信息量的讨论,在宏观层面上两者的讨论是一致的,因此可以借助信息论来讨论摘要生成的相关问题。
信息论研究的是信息的不确定性,例如熵可以表示某时刻状态下的混乱程度,它所研究的层面较高且笼统。因此无法直接将其和摘要生成任务相联系,这里需要将文本划分为不同的语义单元,由语义单元负责文本的语义信息,而使用信息论只需要在语义层级上进行考虑即可。当然语义单元的划分方式也不尽相同,我们可以根据需要在文本的不同层级进行划分,如unigram、bigram、n-gram、sentence等。
假设当前原文档为 D D D, w i w_{i} wi表示第 i i i个语义单元, Ω \Omega Ω表示划分后的语义单元所组成的集合, X X X表示从 Ω \Omega Ω中抽取的语义单元所组成的文本, P D P_{D} PD表示基于语义单元组合的概率分布, P X P_{X} PX表示每个文本基于语义单元组合的概率分布, P S P_{S} PS表示候选摘要基于语义单元的概率分布。
相关性(Relevance)
相关性是摘要生成过程中最基本的一个要求,因为摘要是对原文的高度概括,那么自然它所表述的内容和原文的表述相关性越高越好。在此之前,很多模型的建模目标总体来说也是为提高摘要和所处理文档的相关性,例如TF-IDF、LSA、LDA、Clustering、Graph-Based Methods等。从统计学角度来看,摘要和原文档都各自满足一定的概率分布,而分布之间的接近程度可以简单的使用交叉熵(cross-entropy)衡量。
因此我们同样可以使用交叉熵评估生成的摘要和真实摘要之间的相似性,即它们所满足的分布之间的接近程度。基于交叉熵的损失函数可以写为 R E L ( S , D ) = − C E ( S , D ) REL(S,D) = -CE(S,D) REL(S,D)=−CE(S,D)其中 R E L ( S , D ) = ∑ w i P S ( w i ) ⋅ log ( P D ( w i ) ) REL(S,D)= \sum_{w_{i}}P_{S}(w_{i}) \cdot \log(P_{D}(w_{i})) REL(S,D)=∑wiPS(wi)⋅log(PD(wi)),它表示了 S S S和 D D D的交叉熵值越大,它们的相似性就越差,两者所满足的分布越不相近。因此在训练中,模型的建模目标之一就是尽量减小 S S S和 D D D的交叉熵。
根据熵、交叉熵和KL散度之间的关系 K L ( S ∣ ∣ D ) = C E ( S , D ) − H ( S ) KL(S||D)=CE(S,D)-H(S) KL(S∣∣D)=CE(S,D)−H(S),可以得到 − K L ( S ∣ ∣ D ) = R E L ( S , D ) − R e d ( S ) -KL(S||D)=REL(S,D)-Red(S) −KL(S∣∣D)=REL(S,D)−Red(S)当两个分布越接近时,它们之间的KL散度就越小,因此如果将上式做为损失目标时,自然是希望等式右边的值越大越好,即希望 S S S和 D D D越相似越好, S S S本身的冗余度越小越好。
冗余度(Redundancy)
如果简单的使用相关性来对文档中的句子进行排序,然后选择相关性最高的某些句子来生成摘要,但由于相关性分数接近的句子表述的内容通常也是接近的,因此摘要的冗余度就会很高。而一个好的摘要应该是包含不同的信息,而不是大量相似的信息,而冗余度可以使用熵进行描述。
对于 S S S来说,它的熵可以表示为 H ( S ) = − ∑ w i P S ( w i ) ⋅ log ( P S ( w i ) ) H(S) = - \sum_{w_{i}}P_{S}(w_{i}) \cdot \log(P_{S}(w_{i})) H(S)=−wi∑PS(wi)⋅log(PS(wi))那么冗余度可以表示为 R e d ( S ) = − H ( S ) Red(S)=-H(S) Red(S)=−H(S)。建模的目标是冗余度尽量小,那么表示 S S S的熵值越大,表示文本的不确定性越好,所包含的信息量也越大,对应的冗余度也就越小。
在此之前的MMR(Maximal Marginal Relevance)方法是从相关性和冗余度两个方面进行考虑,选择综合分数最高的句子生成摘要;基于Submodular的方法是从多样性的角度进行考虑,希望选择的句子的差别更大。
信息量(Informativeness)
假设用户在读摘要前已经知道了很多东西,即存在一个知识库 K K K,它所满足的概率分布使用 P K P_{K} PK表示。那么在摘要生成时不仅需要保证结果对于文档的表述,还要尽可能的包含更多新的信息,即用户不知道的信息。按照前面的定义方式,只需要使得生成的摘要 S S S和 K K K尽可能的不同,即增大两者之间的交叉熵 I n f ( S , K ) = C E ( S , K ) = − ∑ w i P S ( w i ) ⋅ log ( P K ( w i ) ) Inf(S,K)=CE(S,K)=-\sum_{w_{i}}P_{S}(w_{i}) \cdot \log(P_{K}(w_{i})) Inf(S,K)=CE(S,K)=−wi∑PS(wi)⋅log(PK(wi))如何建模 K K K或者说如何表示用户已经知道的东西,我觉得在模型的不断训练中,生成摘要时同时建模 K K K,那么对于同一主题的文档集,当训练数据足够多时,在训练结束后不仅可以得到可以生成较好摘要的模型,还可以建立包含同类信息的知识图谱或常识库。当然可以寻找同类型的常识库辅助训练,但偏差应会更大一些。
重要性(Importance)
对于同样语义单元而言,它既可能出现在 K K K中也可能出现在 S S S中,如何评估它对于摘要的贡献程度,即使用所提出的重要性分数来判断是否使用它还是丢弃。假设 d i = P D ( ω i ) d_{i}=\mathbb{P}_{D}\left(\omega_{i}\right) di=PD(ωi)表示 w i w_{i} wi在 D D D中的概率, k i = P K ( ω i ) k_{i}=\mathbb{P}_{K}\left(\omega_{i}\right) ki=PK(ωi)表示 w i w_{i} wi在 K K K中的概率。那么模型的目标是寻找一个函数 f ( d i , k i ) f(d_{i},k_{i}) f(di,ki)来综合评估重要性分数,而且 f f f应满足如下的四个条件:
- Informativeness:对于 ∀ i ≠ j \forall i \neq {j} ∀i̸=j,如果 d i = d j d_{i}=d_{j} di=dj且 k i > k j k_{i}>k_{j} ki>kj,那么必有 f ( d i , k i ) < f ( d j , k j ) f\left(d_{i}, k_{i}\right)<f\left(d_{j}, k_{j}\right) f(di,ki)<f(dj,kj),即如果两个语义单元在原文档中出现的概率是一样的,但是 w i w_{i} wi比 w j w_{j} wj在知识库中出现的次数多,表示用户了解 w i w_{i} wi更多,那么它在摘要中的提供的信息量就比 w j w_{j} wj要少一些
- Relevance:对于 ∀ i ≠ j \forall i \neq j ∀i̸=j,如果 d i > d j d_{i}>d_{j} di>dj且 k i = k j k_{i}=k_{j} ki=kj,那么必有 f ( d i , k i ) > f ( d j , k j ) f\left(d_{i}, k_{i}\right)>f\left(d_{j}, k_{j}\right) f(di,ki)>f(dj,kj),即如果 w i w_{i} wi和 w j w_{j} wj在知识库中出现的概率相同,但是 w i w_{i} wi在原文档出现的概率更大,表示它和原文档的相关性更大
- Additivity: I ( f ( d i , k i ) ) ≡ α I ( d i ) + β I ( k i ) I\left(f\left(d_{i}, k_{i}\right)\right) \equiv \alpha I\left(d_{i}\right)+\beta I\left(k_{i}\right) I(f(di,ki))≡αI(di)+βI(ki),表示一致性约束
- Normalization: ∑ i f ( d i , k i ) = 1 \sum_{i} f\left(d_{i}, k_{i}\right)=1 ∑if(di,ki)=1,保证了 f f f是有效的概率分布
且同时满足上述的函数应为如下的形式
P
D
K
(
ω
i
)
=
1
C
⋅
d
i
α
k
i
β
C
=
∑
i
d
i
α
k
i
β
,
α
,
β
∈
R
+
\begin{aligned} \mathbb{P}_{\frac{D}{K}}\left(\omega_{i}\right) &=\frac{1}{C} \cdot \frac{d_{i}^{\alpha}}{k_{i}^{\beta}} \\ C &=\sum_{i} \frac{d_{i}^{\alpha}}{k_{i}^{\beta}}, \alpha, \beta \in \mathbb{R}^{+} \end{aligned}
PKD(ωi)C=C1⋅kiβdiα=i∑kiβdiα,α,β∈R+
其中
α
\alpha
α和
β
\beta
β是平衡因子,它其实提供了一个理想的摘要分布的上界。使用交叉熵评估重要性为
I
m
p
o
r
t
a
n
c
e
(
S
,
D
K
)
=
−
C
E
(
S
,
D
K
)
Importance(S,\frac{D}{K})=-CE(S,\frac{D}{K})
Importance(S,KD)=−CE(S,KD)如果使用KL散度可以表示为
θ
I
(
S
,
D
,
K
)
=
−
K
L
(
P
S
∣
∣
P
D
K
)
\theta_{I} (S,D,K)=-KL(P_{S}||P_{\frac{D}{K}})
θI(S,D,K)=−KL(PS∣∣PKD)那么理想的摘要
S
∗
S^*
S∗就是求得
θ
I
\theta_{I}
θI值最小时的分布,即满足
S
∗
=
argmax
S
θ
I
=
argmin
S
K
L
(
S
∥
P
D
K
)
S^{*}=\underset{S}{\operatorname{argmax}} \theta_{I}=\underset{S}{\operatorname{argmin}} K L\left(S \| \mathbb{P}_{\frac{D}{K}}\right)
S∗=SargmaxθI=SargminKL(S∥PKD)
将前面所提到几种概念整合到一起有
θ
I
(
S
,
D
,
K
)
≡
−
Red
(
S
)
+
α
Rel
(
S
,
D
)
+
β
In
f
(
S
,
K
)
\begin{aligned} \theta_{I}(S, D, K) \equiv &-\operatorname{Red}(S)+\alpha \operatorname{Rel}(S, D) \\ &+\beta \operatorname{In} f(S, K) \end{aligned}
θI(S,D,K)≡−Red(S)+αRel(S,D)+βInf(S,K)
在最大化
θ
I
\theta_{I}
θI的同时就相当于最大化相关性和信息量,同时最小化冗余度。它可以做为以后模型训练的指导函数,通过综合考虑多方面的信息来生成更好的摘要。
而且前面所提到的相关性是针对 S S S和 D D D来说的,信息量是针对 S S S和 K K K来说的,那么能否也建立 D D D和 K K K之间的联系呢?为此作者提出了潜信息(Potential Information)的信息,即当 D D D和 K K K相差较大时,可以从 D D D中抽取更多的信息,而两者之间的差异统一可以使用交叉熵进行评估 P I K ( D ) = C E ( D , K ) PI_{K}(D) = CE(D,K) PIK(D)=CE(D,K)它可以用来指导摘要模型的训练,在训练前期 K K K中的内容较少,模型可以从 D D D中抽取大量的信息。但随着训练的进行, K K K中的信息变得更丰富,模型就不必从 D D D中获取更多的信息,也减少了抽取的工作量。