nlp中标准数据集
1 GLUE数据集合介绍
1.1 数据集合介绍
GLUE由纽约大学, 华盛顿大学, Google联合推出, 涵盖不同NLP任务类型, 截止至2020年1月其中包括11个子任务数据集, 成为衡量NLP研究发展的衡量标准.
- CoLA 数据集
- SST-2 数据集
- MRPC 数据集
- STS-B 数据集
- QQP 数据集
- MNLI 数据集
- SNLI 数据集
- QNLI 数据集
- RTE 数据集
- WNLI 数据集
- diagnostics数据集(官方未完善)
1.2 数据集合路径
数据集在虚拟机/root/data/glue_data下,总结如下

2 GLUE子数据集的样式及其任务类型
2.1 CoLA数据集文件样式
数据集释义:CoLA(The Corpus of Linguistic Acceptability,语言可接受性语料库)纽约大学发布的有关语法的数据集
GLUE是由纽约大学、华盛顿大学和Google联合推出的自然语言处理评估基准,包括11个子任务数据集。本文详细介绍了GLUE中的CoLA、SST-2、MRPC、STS-B、QQP、MNLI/SNLI、QNLI/RTE/WNLI等数据集的文件样式、任务类型及评估指标。
订阅专栏 解锁全文
2万+

被折叠的 条评论
为什么被折叠?



