Multi-News: a Large-Scale Multi-Document Summarization Dataset 文本摘要笔记

本文介绍了多文档摘要领域的研究进展,包括Multi-News数据集的创建及其端到端模型。探讨了Pointer-generator Network、Transformer模型以及最大边际关联(MMR)方法在摘要生成中的应用。同时,提到了PG-MMR如何结合MMR策略,以及Hi-MAP模型的层次结构。此外,First策略简单地将文档首句组合成摘要,而LexRank和TextRank则利用图算法生成摘要。实验部分未详细展开,但涉及关键评价指标和结果。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1.Multi-News

Multi-News: a Large-Scale Multi-Document Summarization Dataset and Abstractive Hierarchical Model

作者提出了第一个新闻多文档摘要数据集。它包含来自1500多个不同网站的输入文章以及从网站newser.com获得的56,216篇这些文章的专业摘要。此外,作者提出了一种端到端模型,该模型在各种多文档数据集(包括Multi-News)的自动和人工评估下实现了较好的结果。

文本摘要神经方法的最新进展主要应用于单文档新闻摘要和标题生成。这些利用了大型数据集,如Gigaword语料库、CNN/每日邮报(CNNDM)数据集、纽约时报数据集和编辑室语料库。其中包含的文章摘要对的数量从几十万到几百万不等。然而,多文档摘要旨在从同一主题的文档集群中输出摘要,它主要是在不到100个文档集群的数据集上执行的,如DUC 2004和TAC 2011数据集,而且从深度学习方法的进步中获益较少。

2.Pointer-generator Network

指针生成器网络是具有注意力的常用编码器-解码器摘要模型,其结合了从源文档复制单词和从词汇表输出单词。

step1:
在这里插入图片描述
hi:编码器将文档中的每个token转换为隐藏状态hi
dt:在每个解码步骤t,解码器具有隐藏状态dt
at:注意力分布
h∗t:上下文向量,token隐藏状态的加权和
表示t解码时间步骤的相关文档内容的语义意义

hi是编码器的隐状态,dt是解码器的隐状态
通过每个解码步骤解码器的隐藏状态dt、每个token隐藏状态hi计算每个token的注意力分布at;然后用at和hi计算文档表示。

step2:
然后将上下文矢量h∗t和解码器隐藏状态dt传递到两个线性层,以产生词汇分布Pvocab
对于每个单词,还存在复制概率Pcopy,即所有单词注意力权重之和

step3:
Pgen:从Pvocab词汇生成字,还是通过从复制概率Pcopy来从源序列复制字。

最终概率分布是词汇分布和复制概率的加权和:

3.Transformer

The Transformer model replaces recurrent layers with self-attention in an encoder-decoder frame-work
encoder:the multi-head self-attention sub-layer allows the encoder to directly attend to all other words in a sentence in one step.
decoder:contains the typical encoder-decoder attention mechanisms as well as self-attention to all previous generated output.

4.MMR

最大边际关联(MMR)是一种在摘要上下文中将查询相关性与信息新颖性相结合的方法。MMR根据与查询的相关性和冗余度产生候选语句的排序列表,该列表可用于提取句子。分数的计算方法如下:
在这里插入图片描述
R是所有候选语义的集合,Q是查询,S是已选择的句子集合,R\S是未选择的句子集合。一般来说,每次我们想要选择一个句子,我们都会对所有考虑相关性和重复性的候选者进行排名
希望Di和Q相似度大的同时,Di和其他句子的最大相似度小

5.PG-MMR

最近的一项工作将MMR应用于多文档摘要,创建了一个外部模块和一个句子重要性的监督回归模型。然而,我们提出的方法将MMR与pointer-generator network以端到端的方式结合在一起,对相似性和冗余性学习参数

1、从多文档拼接而成的大文档中,根据MMR分数,选出K个句子;动态调整K个句子的注意力权重;生成一句摘要
2、重新挑选最重要的topk句子,来继续生成下一句摘要。但是挑选这些句子的时候,如果某个句子和已经生成的部分摘要比较相似(冗余度高),那么被选择的可能性降低
MMR:
在这里插入图片描述
·前者表示第i句和文档的相似度,作为重要度
在这里插入图片描述
·后者表示第i句和已经生成的摘要句的相似度
在这里插入图片描述

6.Hi-MAP

我们将已有的指针生成器网络模型扩展为一个层次网络,使我们可以计算出实时级的MMR分数。我们的模型由一个指针生成器网络和一个集成的MMR模块组成。(这部分没细看)
在这里插入图片描述

7.First

我们将文档簇中每个主题的第一个句子串联起来作为系统摘要,对于我们的数据集,first-k意味着每个源文章的前k个句子将串联起来作为摘要

8.LexRank

在这里插入图片描述
其中LR(u)是句子的LexRank值
N是图中句子的总数,d是经验决定的阻尼系数
adj[u]是在图中与U相邻的句子的集合,w(v,u)是从句子v到句子u的权值

因此,一个句子的LexRank值是一个恒量加上其邻居节点的权值的平均。

9.TextRank

9.1 PageRank

PageRank本来是用来解决网页排名的问题,网页之间的链接关系即为图的边
在这里插入图片描述
其中,PR(Vi)表示结点Vi的rank值,In(Vi)表示结点Vi的前驱结点集合,Out(Vj)表示结点Vj的后继结点集合,d为damping factor用于做平滑。
一个点的重要性:所有指向这个点的点的重要性的平均值

9.2 TextRank

在这里插入图片描述
比PageRank多了一个权重项Wji,用来表示两个节点之间的边连接有不同的重要程度

9.3 TextRank生成摘要

将文本中的每个句子分别看做一个节点,如果两个句子有相似性,那么认为这两个句子对应的节点之间存在一条无向有权边。考察句子相似度的方法是下面这个公式:
在这里插入图片描述
Si,Sj分别表示两个句子词的个数总数,Wk表示句子中的词,那么分子部分的意思是同时出现在两个句子中的同一个词的个数,分母是对句子中词的个数求对数之和。分母这样设计可以遏制较长的句子在相似度计算上的优势。
共现词数量占句子长度比重越大,越相似

我们可以根据以上相似度公式循环计算任意两个节点之间的相似度,根据阈值去掉两个节点之间相似度较低的边连接,构建出节点连接图,然后计算TextRank值,最后对所有TextRank值排序,选出TextRank值最高的几个节点对应的句子作为摘要

10.实验

10.1 评价指标

在这里插入图片描述

10.2 实验结果

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

### 回答1: lcsts 是一个大规模的中文短文本摘要数据集,包含了来自互联网上的新闻、微博、博客、评论等各种类型的短文本数据。该数据集共有 2 万多篇原始文本和对应的人工摘要,涵盖了多个主题和领域,如时政、社会、科技、娱乐等。每篇原始文本长度在 30 到几百个字符之间,摘要长度在 10 到 80 个字符之间。 lcsts 数据集的构建过程采用了标注-人工审核的方式。首先从互联网上采集了大量的短文本数据,然后通过自动摘要算法生成了初步的摘要,最后由人工审核和纠正。人工审核的标准是要求摘要正确地概括原始文本的主旨和要点,并且能够清晰、简洁地表达。在这样的标准下,lcsts 数据集具备了高质量和广泛覆盖性的特点。 lcsts 数据集可以被广泛应用于文本摘要、自然语言处理、机器翻译等领域的研究和应用中。例如,在文本摘要领域,利用 lcsts 数据集可以进行摘要算法的评估和改进;在机器翻译领域,可以将 lcsts 数据集作为训练数据集用于中英文、中日文、中韩文等短文本的机器翻译任务中。总之,lcsts 数据集为中文自然语言处理领域的研究和发展提供了重要的数据基础和评估标准。 ### 回答2: lcsts是一个大规模的中文短文本摘要数据集。目前,该数据集包含超过200,000篇文章及其对应的摘要,每篇文章平均长度为约200个字符,摘要平均长度为约30个字符。这个数据集的建立对于促进中文自然语言处理相关领域的研究和应用具有重要意义。 lcsts数据集是基于人工标注的方式构建而成。数据来源于新浪新闻,通过爬虫程序获取,然后经过人工处理,采用分句、去重和抽取等方式进行清洗和预处理,最终形成了该数据集。这个数据集不仅仅可以用于中文短文本摘要领域的训练和测试,也可以应用到其他中文自然语言处理领域,如句子分类、命名实体识别等方面的研究。 利用lcsts数据集进行中文短文本摘要的研究和应用,可以帮助人们更好地理解基于机器学习模型的文本摘要技术。通过模型训练和测试,进一步完善中文文本摘要技术的方法和算法,为实际应用提供更有用的解决方案。此外,这个数据集的建立也为社会各界提供了一个方便、可靠的研究平台,为中文自然语言处理领域的研究和发展推进做出了贡献。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

CxFt

很高兴可以帮到你

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值