OpenGPT2.0笔记

本文介绍了GPT-2模型,它是一个大型的基于Transformer的语言模型,通过预测下一个单词进行训练。研究表明,尽管在某些任务上表现不突出,但使用大量数据和计算资源,无监督学习也能取得效果。GPT-2在特定领域数据集上的表现优于仅使用该领域数据训练的模型。文章还讨论了模型的超参数、数据来源以及如何将任务转化为条件概率分布,并提及了NLP领域的无监督与监督学习问题。

还没看完,先放上来,这个乱七八糟的草稿笔记在这就能提醒自己抓紧看....

GPT Feature

large transformer-based language model 

Training objective: predict the next word, given all of the previous words within some text.

GPT-2在question answering, reading comprehension, summarization, and translation上,尽管表现不好,但是用足够的数据和计算量是可以直接做无监督学习的。

GPT-2 begins to learn these tasks from the raw text, using no task-specific training data. While scores on these downstream tasks are far from state-of-the-art, they suggest that the tasks can benefit from unsupervised techniques, given sufficient (unlabeled) data and compute.

 

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值