12、文本到文本生成的数据集介绍

文本到文本生成的数据集介绍

在文本处理领域,文本到文本生成是一项重要的任务,涵盖了摘要生成、简化、压缩和释义等多个方面。不同的任务需要不同的数据集来进行训练和测试,下面将详细介绍相关的数据集。

1. 摘要生成数据集

1.1 常用数据集概述

摘要生成有多个常用数据集,它们在规模、抽象程度、多样性和摘要任务等方面存在差异。
- DUC 数据集 :Document Understanding Conference(DUC)数据集支持单文档、多文档和查询驱动的摘要生成。不过,由于其规模较小(仅有几百个文档 - 摘要对),主要用于测试。
- CNN/DailyMail 数据集 :该数据集改编自 DeepMind 的问答数据集,输入是从 CNN 和 Daily Mail 网站收集的新闻故事,摘要由故事前的要点组成。语料库约有 286K 个训练对、13K 个验证对和 11K 个测试对。输入文档较长(平均 781 个标记),输出摘要包含多个句子(平均 3.75 个句子或 56 个标记)。
- NYT 数据集 :New York Times(NYT)数据集是大量新闻文章与图书馆科学家撰写的摘要的集合。与 CNN/Daily Mail 摘要相比,NYT 摘要更加多样化,使用了更高层次的抽象和释义,且更短,平均 40 个标记和 1.9 个要点。数据集包括 589,284 个训练实例、32,736 个验证实例和 32,739 个测试实例。
- NewsRoom 数据集 :与前面的新闻摘要语料库不同,NewsRo

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值