自然语言处理与无监督学习技术综述
1. 自然语言处理相关数据集与工具
1.1 RACE数据集
RACE(The ReAding Comprehension dataset from Examinations)是一个面向12 - 18岁中国学生的英语考试机器阅读理解数据集,包含27,933篇文章和97,867个问题。它分为两个子集:RACE - M(来自中学考试,有28,293个问题)和RACE - H(来自高中考试,有69,574个问题)。每个问题有四个候选答案,其中一个正确。与大多数机器阅读理解数据集不同,RACE的问题由领域专家专门为测试人类阅读技能而设计,而非通过启发式方法或众包生成。该数据集可在https://www.cs.cmu.edu/~glai1/data/race/获取。
1.2 NLP - progress
NLP - progress是一个用于跟踪自然语言处理(NLP)进展的仓库,它涵盖了常见NLP任务的数据集和当前最先进的模型。该网站旨在跟踪NLP的进展,并概述常见NLP任务及其对应数据集的最先进模型,涉及传统和核心NLP任务,如依存句法分析和词性标注,以及较新的任务,如阅读理解和自然语言推理。若需为任务寻找优质指标,可从http://nlpprogress.com/开始。
2. 变压器模型(Transformers)
2.1 模型规模
近年来,变压器模型的规模不断增大。2018年,BERT约有3.4亿个参数;2021年,T5达到110亿,Megatron超过5000亿;最近的Switch Transformer拥有超过一万亿个参数,预计很快会出现具有100万亿参数的模型。虽然较大的模型
超级会员免费看
订阅专栏 解锁全文

1万+

被折叠的 条评论
为什么被折叠?



