
NLP/文本摘要
文章平均质量分 79
NLP/文本摘要
u013250861
这个作者很懒,什么都没留下…
展开
-
自然语言处理(NLP)-第三方库(工具包):FastSum【基于fastNLP开发的文本摘要解决方案,包括数据加载、模型调用、模型评价】【实现模型:Seq2Seq、PGNet、BertSum】
FastSum是基于fastNLP开发的一套完整的文本摘要任务解决方案,包括数据加载、模型调用、模型评价三个部分。FastSum中实现的模型包括:基准模型 (LSTM/Transformer + SeqLab)Get To The Point: Summarization with Pointer-Generator NetworksExtractive Summarization as Text MatchingText Summarization with Pretrained Encode原创 2022-02-25 22:53:51 · 493 阅读 · 0 评论 -
NLP-文本摘要:Rouge评测方法【Rouge-1、Rouge-2、Rouge-L、Rouge-W、Rouge-S】
《原始论文:Rouge: A package for automatic evaluation of summaries》Rouge(Recall-Oriented Understudy for Gisting Evaluation),是评估自动文摘以及机器翻译的一组指标。它通过将自动生成的摘要或翻译与一组参考摘要(通常是人工生成的)进行比较计算,得出相应的分值,以衡量自动生成的摘要或翻译与参考摘要之间的“相似度”。一、Rouge-N(Rouge-1,Rouge-2)1、公式分母是参考摘要(人工摘原创 2021-11-18 23:15:00 · 11838 阅读 · 0 评论 -
NLP-文本摘要:利用预训练模型进行文本摘要任务【transformers:pipeline、T5、BART、Pegasus】
一、pipeline可以使用pipeline快速实现文本摘要from transformers import pipelinesummarizer = pipeline(task="summarization", model='t5-small')text = """ summarize: (CNN)For the second time during his papacy, Pope Francis has announced a new group of bishops an原创 2022-02-17 21:24:04 · 5010 阅读 · 0 评论 -
NLP-文本摘要:数据集介绍及预处理【CNN/DM(偏抽取式)、NYT Annotated Corpus(偏抽取式)、Newsroom(抽取式+生成式)、XSum(抽取式/BBC)、XL-Sum】
论文《Abstractive Text Summarization using Sequence-to-sequence RNNs and Beyond》第一次提出。训练集中的源文档平均有766个单词,共29.74句,而摘要由53个单词和3.72句组成。【The source documents in the train- ing set have 766 words spanning 29.74 sentences on an average while the summaries consist of原创 2021-10-29 23:15:00 · 14645 阅读 · 0 评论 -
NLP-文本摘要:“文本摘要”综述(Text Summarization)
文本摘要旨在将文本或文本集合转换为包含关键信息的简短摘要。文本摘要按照输入类型可分为单文档摘要和多文档摘要。单文档摘要从给定的一个文档中生成摘要,多文档摘要从给定的一组主题相关的文档中生成摘要。按照输出类型可分为抽取式摘要和生成式摘要。抽取式摘要从源文档中抽取关键句和关键词组成摘要,摘要全部来源于原文。生成式摘要根据原文,允许生成新的词语、短语来组成摘要。按照有无监督数据可以分为有监督摘要和无监督摘要。本文主要关注单文档、有监督、抽取式、生成式摘要。一、抽取式摘要抽取式方法从原文中选取关键词、关键句组成原创 2021-08-28 20:43:32 · 16096 阅读 · 1 评论 -
NLP-文本摘要-2004:TextRank(“无向有权图”模型)【属于机器学习范畴;由PageRank网页重要性分数衍生而来;用于文本“关键词”、 “关键句” 提取、抽取式摘要】
在自然语言处理中,“关键句提取”算法主要包含两种类型:第一类使用传统机器学习模型,主要包括主题模型(LDA)、隐马尔可夫模型(HMM)、无监督图模型(TextRank)等,和 LDA、HMM 等模型不同,TextRank 无需对多篇文档进行训练,仅利用单篇文档本身的信息即可完成关键句提取,从而被业界广泛使用;第二类主要依赖于深度神经网络模型,通过对各句子进行二分类来判断是否为关键句。参考资料:TextRank算法详细讲解与代码实现(完整)...原创 2021-04-09 20:00:34 · 1677 阅读 · 0 评论 -
NLP-文本摘要-2004:LexRank(无监督图模型)【属于机器学习范畴;由PageRank网页重要性分数衍生而来;用于文本“关键词”、 “关键句” 提取、抽取式摘要】
《原始论文:LexRank: Graph-based Lexical Centrality as Salience in Text Summarization》句子Si与Sj之间的相似度使用余弦相似度作为相似度计算方式,如图所示:LexRank是一种无监督的基于图形的算法,它使用IDF修改的余弦作为两个句子之间的相似性度量。该相似度用作两个句子之间的图形边缘的权重。LexRank还采用了智能后处理步骤,确保为摘要选择的顶级句子彼此不太相似。参考资料:Lexrank学习...原创 2021-12-30 11:40:23 · 1185 阅读 · 0 评论 -
NLP-生成模型-2015:Seq2Seq+Copy【 Pointer网络的Copy机制是对传统Attention机制的简化:输出针对输出词汇表的一个概率分布 --> 输出针对输入文本序列的概率分布】
NLP-自动摘要-2015:Pointer Networks原创 2021-08-25 21:08:06 · 663 阅读 · 1 评论 -
NLP-生成模型-2016:CopyNet【Copy机制赋予seq2seq模型从源文本中复制词汇的能力,解决Decoder的OOV问题】
本文开篇,作者就提出他们的目标是解决seq2seq模型的复制问题,并且提供了一个例子:在这个例子中,我们要对用户提出的问题做出回答,显然,蓝色部分根本不需要理解语义,直接复制即可。针对这种情形,作者希望能赋予seq2seq复制的能力。解决方案其实和前一篇ACL17的文章有些类似。那么为什么先介绍17年的文章,后介绍16年的呢?这是因为ACL17的文章相对较为通俗易懂,我们在读过它后再来理解ACL16的文章会更容易。模型包含两个部分:Generation-Mode用来根据词汇表生成词汇,然后Copy-原创 2021-08-26 17:15:05 · 1033 阅读 · 1 评论 -
NLP-生成模型-2016:Seq2Seq+Attention+Coverage 【覆盖机制:解决编码端信息(词)的过使用/欠使用问题(Attention机制不能清楚地知道哪些信息被用过或没被用过)】
自然语言处理(NLP)原创 2021-02-28 22:19:23 · 1324 阅读 · 1 评论 -
NLP-生成模型-2016-生成式摘要模型:Seq2Seq+Attention+Copy【Pointer网络的Copy机制解决Decoder端的OOV问题】【抽取式+生成式】【第一个生成式摘要模型】
《原始论文:Abstractive Text Summarization Using Sequence-to-Sequence RNNs and Beyond》参考资料:【读】seq2seq—(3)Abstractive Text Summarization using Sequence-to-sequence RNNs and Beyond原创 2021-12-17 19:46:03 · 574 阅读 · 0 评论 -
NLP-生成模型-2017-PGNet:Seq2Seq+Attention+Coverage+Copy【Coverage解决解码端重复解码问题;Copy机制解决解码端OOV问题】【抽取式+生成式】
Pointer Network(指针网络)属于生成式模型。- 仅用传统的 Seq2Seq 模型可以实现生成式摘要,但存在两个问题: 1. 可能不准确地再现细节, 无法处理词汇不足(OOV)单词/they are liable to reproduce factual details inaccurately; 2. 倾向于重复自己/they tend to repeat themselves。- 传统的 Seq2Seq 模型中 Decoder 输出的目标数量是固定的,例如翻译时 Decoder 预测原创 2020-12-24 23:44:02 · 3657 阅读 · 4 评论 -
NLU-预训练模型-2018:Bert(一)【“Masked LM”缺点:①预训练与微调不一致;②忽略了掩码位置间的依赖关系】【复杂度:O(n^2·d);n:输入序列长度(规定最长512)】
BERT是2018年10月由Google AI研究院提出的一种预训练模型.- BERT的全称是:**B**idirectional **E**ncoder **R**epresentations from **T**ransformers;- BERT在机器阅读理解顶级水平测试SQuAD1.1中表现出惊人的成绩: 全部两个衡量指标上全面超越人类, 并且在11种不同NLP测试中创出SOTA表现. 包括将GLUE基准推高至80.4% (绝对改进7.6%), MultiNLI准确度达到86.7% (绝对改进5原创 2021-02-27 22:13:21 · 1813 阅读 · 0 评论 -
NLP-文本摘要-2019:BertSum(抽取式)【Fine-tune BERT for Extractive Summarization】
《原始论文:Fine-tune BERT for Extractive Summarization》参考资料:BERTSUM论文笔记[nlp] BertSum原创 2021-12-18 22:19:28 · 939 阅读 · 0 评论 -
NLP-预训练模型-2019-NLG:MASS【Bert+GPT的泛化Seq2Seq模型】【文本片段中被掩码的部分替换为相同数量的[MASK]】
预训练模型(Pretrained model):一般情况下预训练模型都是大型模型,具备复杂的网络结构,众多的参数量,以及在足够大的数据集下进行训练而产生的模型.在NLP领域,预训练模型往往是语言模型,因为语言模型的训练是无监督的,可以获得大规模语料,同时语言模型又是许多典型NLP任务的基础,如机器翻译,文本生成,阅读理解等,常见的预训练模型有BERT, GPT, roBERTa, transformer-XL等.2018年开始,预训练(pre-train) 毫无疑问成为NLP领域最热的研究方向。借助于原创 2021-08-03 22:48:09 · 1065 阅读 · 1 评论 -
NLP-预训练模型-2019-NLU+NLG:BART【Bert+GPT的泛化Seq2Seq模型】【噪声破坏后的原文本喂给编码器,解码器输出原文本】【噪音方案:文本填充(文本片段用单个掩码替换)】
《原始论文:BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension》一、摘要BART是 Bidirectional and Auto-Regressive Transformers的简写。BART的训练主要由2个步骤组成:(1)使用任意噪声函数破坏文本;(2)模型学习重建原始文本。BART 使用基于 Transformer原创 2021-09-17 21:58:33 · 12893 阅读 · 1 评论 -
NLP-预训练模型-2019-NLU+NLG:T5【Transfer Text-to-Text Transformer】【将所有NLP任务都转化成Text-to-Text任务】【 翻译、文本摘要..】
《原始论文:Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer》2019年10月,Google 在《Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer》这篇论文中提出了一个最新的预训练模型 T5(Text-To-Text Transfer Transformer),其参数量达到了 11原创 2021-12-30 22:45:00 · 18572 阅读 · 1 评论 -
NLP-文本摘要-2020:BertSum(生成式)【Abstractive Summarization of Spoken and Written Instructions with BERT】
《原始论文:Abstractive Summarization of Spoken and Written Instructions with BERT》参考资料:[nlp] BertSum原创 2021-12-18 22:16:48 · 567 阅读 · 0 评论 -
NLP-预训练模型-2020:Pegasus(天马)模型【专为生成式摘要定制的“预训练模型”】【预训练数据集:C4、XSum、CNN/DM】【只需1000个样本就可微调出效果超出T5、Bart的模型】
一、导语近些年 Transformers 在海量语料上进行自监督预训练再到下游各种NLP任务(当然也包括文本摘要)上微调的方案已取得巨大成功。但是,尚未有针抽象文本摘要(abstractive text summarization)定制预训练目标。此外,目前抽象文本摘要任务也缺乏跨领域的系统评价。为此,本文提出了一种新的自监督预训练目标:GSG(Gap Sentences Generation),以适配 Transformer-based 的 encoder-decoder 模型在海量文本语料上预训练。原创 2022-02-16 22:09:29 · 3573 阅读 · 1 评论