大模型的能力
参考链接:https://github.com/datawhalechina/so-large-lm/tree/main
GPT-3——这个具有代表性的⼤型语⾔模型的能⼒值得我们探讨。
1 语言模型的适应性:从语言模型到任务模型的转化
在⾃然语⾔处理的世界中,语⾔模型是⼀种对token序列的分布。这样的模型能够⽤于评估序列,同样,它还能⽤于在给定提示的条件下⽣成完成的序列。
对于每个任务,我们会讨论以下⼏点:
- 定义:任务是什么,以及其动机?
- 适应:我们如何通过提示将任务简化为语⾔模型?
- 结果:与任务特定的最先进模型相⽐,数量性能如何?
模型的⼤⼩和训练样本的数量都很重要。默认情况下,结果将基于:
- 完整的GPT-3模型(davinci),其拥有1750亿参数
- 使⽤尽可能多的训练实例进⾏上下⽂学习,这些实例都可以塞进提示。
在此过程中,我们将进⾏消融实验,以查看模型的⼤⼩和上下⽂训练实例的数量是否真的重要。⽽结果告诉我们,答案是肯定的,更多总是更好。
困惑度(Perplexity) 是⼀个重要的指标,是⾃然语⾔处理和语⾔模型中的⼀个重要概念,⽤于衡量语⾔模型的性能。它可以解释为模型在预测下⼀个词时的平均不确定性。
召回错误 语⾔模型未能正确地为某个词符分配概率值。这种情况下,困惑度是毫不留情的。
精确度错误