- 博客(9)
- 资源 (2)
- 问答 (1)
- 收藏
- 关注
原创 中文自动文本摘要生成指标计算,Rouge/Bleu/BertScore/QA代码实现
本部分讲述下如何计算生成摘要与参考摘要的指标,指标方面分为两类,一类基于n-grams计算,如Rouge-1,Rouge-2,Rouge-L,BLEU,主要衡量摘要的句法的连贯性,不能衡量生成摘要的真实性与忠诚程度,另一类基于蕴含或者QA等辅助手段,这种方式能够更好的衡量生成摘要的忠诚度,如FEQA,QuestEval。代码中均为transformers库中计算代码。至于摘要生成过程中存在的幻觉问题,如内在的无中生有,外在的无中生有,有一篇很好的综述:https://arxiv.org/pdf/2202
2022-04-15 16:42:30
11680
10
原创 做论文常用中文摘要数据集
(1)短文本1)哈工大LCSTS(2)中等长度1)NLPCC2017的单文档新闻测试集合TTNews2)NLPCC2021的字节跳动CNew_sum(3)长文本1)NLPCC2020的CLTS,但该数据集并不好很差,大量摘要为正文摘抄抽取。
2022-03-29 10:29:47
3134
9
原创 Bigbird中文长文本摘要生成
1 完整代码不多废话,直接上代码,具体讲解看上一篇的Longformerimport loggingfrom transformers import BigBirdPegasusConfig, BigBirdPegasusForConditionalGeneration, BertTokenizerfrom transformers import BartForConditionalGenerationlogger = logging.getLogger("bigbirdpegasus-
2021-12-15 17:07:48
2232
2
原创 Longformer中文长文本摘要生成
1 Longformer之前做了BART中文摘要生成,但是因为项目需求是中文长文本摘要生成,因此在此采用Longformer完成中文摘要生成(实际用的是LED,Longformer基础上添加了解码器),11G显存长度可以到8K,非常友好。短文本上虽然比不上BART,不过这并不重要。1.1 Longformer结构LED结构与BART类似,只不过多了global attention,因为LED没有中文预训练模型,但是我们有BART呀,这也给出了BART权重转到LED的脚本,因此这次我们就采用BAR
2021-12-15 17:00:03
5801
51
原创 CPT中文预训练模型在lcsts上的摘要finetune
import pandas as pdimport datasetsimport jiebaimport numpy as npimport lawrougeimport torchfrom datasets import load_dataset, Datasetfrom transformers import BertTokenizerfrom transformers import AutoModelForSeq2SeqLM, DataCollatorForSeq2Seq, Seq2.
2021-10-29 16:13:22
1373
原创 BART中文摘要生成,(nplcc与LCSTS数据集)
from ipywidgets import IntProgressimport tqdm from datasets import load_datasetimport lawrougeimport datasetsimport randomimport pandas as pdfrom datasets import dataset_dictimport datasetsfrom IPython.display import display, HTMLfrom transfor.
2021-10-29 15:54:49
14174
67
原创 LCSTS中文摘要数据集预处理,使用Huggingface能够加载训练
import pandas as pdimport datasetsfrom datasets import load_dataset, Datasetfrom transformers import BertTokenizermax_input_length = 512max_target_length = 128lcsts_part_1=pd.read_table('./SourceDataset/PART_II.txt', header=None, .
2021-10-29 15:37:15
2043
2
关于外卖系统的问题(C#,Winform)
2017-11-05
TA创建的收藏夹 TA关注的收藏夹
TA关注的人