参考:复旦邱锡鹏:深度剖析 ChatGPT 类大语言模型的关键技术 – 我爱自然语言处理 (52nlp.cn)
随着算力的不断提升,语言模型已经从最初基于概率预测的模型发展到基于 Transformer 架构的预训练语言模型,并逐步走向大模型的时代。
重要的是它的涌现能力。
当模型规模较小时,模型的性能和参数大致符合比例定律,即模型的性能提升和参数增长基本呈线性关系。然而,当 GPT-3/ChatGPT 这种千亿级别的大规模模型被提出后,人们发现其可以打破比例定律,实现模型能力质的飞跃。这些能力也被称为大模型的“涌现能力”(如理解人类指令等)。
上图是多个 NLP 任务随着模型规模扩大的性能变化曲线,可以看到,前期性能和模型规模大致呈线性关系,当模型规模大到一定程度时,任务性能有了明显的突变。
ChatGPT的三个关键技术
ChatGPT 的三个关键技术为:情景学习、思维链、自然指令学习
- 情景学习(In-context learning)
对于一些 LLM 没有见过的新任务,只