23、自然语言处理与无监督学习技术综述

自然语言处理与无监督学习技术综述

1. 自然语言处理相关数据集与工具

1.1 RACE数据集

RACE(The ReAding Comprehension dataset from Examinations)是一个面向12 - 18岁中国学生的英语考试机器阅读理解数据集,包含27,933篇文章和97,867个问题。它分为两个子集:RACE - M(来自中学考试,有28,293个问题)和RACE - H(来自高中考试,有69,574个问题)。每个问题有四个候选答案,其中一个正确。与大多数机器阅读理解数据集不同,RACE的问题由领域专家专门为测试人类阅读技能而设计,而非通过启发式方法或众包生成。该数据集可在https://www.cs.cmu.edu/~glai1/data/race/获取。

1.2 NLP - progress

NLP - progress是一个用于跟踪自然语言处理(NLP)进展的仓库,它涵盖了常见NLP任务的数据集和当前最先进的模型。该网站旨在跟踪NLP的进展,并概述常见NLP任务及其对应数据集的最先进模型,涉及传统和核心NLP任务,如依存句法分析和词性标注,以及较新的任务,如阅读理解和自然语言推理。若需为任务寻找优质指标,可从http://nlpprogress.com/开始。

2. 变压器模型(Transformers)

2.1 模型规模

近年来,变压器模型的规模不断增大。2018年,BERT约有3.4亿个参数;2021年,T5达到110亿,Megatron超过5000亿;最近的Switch Transformer拥有超过一万亿个参数,预计很快会出现具有100万亿参数的模型。虽然较大的模型

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值