〔更多精彩AI内容,尽在 「魔方AI空间」 公众号,引领AIGC科技时代〕
本文作者:猫先生
引 言
本文是 LLM 基础入门系列的第 2 篇。在本文中,我们的目标是提供关于大语言模型 (LLM) 如何运行的易于理解的解释。
LLM大模型基础入门系列之:(一)(一)什么是大语言模型?-优快云博客
LLM大模型基础入门系列之:(三)Transformer 架构-优快云博客
LLM大模型基础入门系列之:(四)从头开始编写LLM代码-优快云博客
LLM 的工作原理
我们首先看一下文档完成器模型的工作原理:
用户提示:
A banana is
模型响应:
an elongated, edible fruit
然后,文档生成器模型的工作原理如下:
用户提示:
I want to buy a new car
模型响应:
What kind of car do you want to buy?
注意上面两者的区别。
第一个模型只是一个文档完成器,它只会用它发现的最有可能成为下一个角色的内容来完成提示。这是我们在互联网数据块上训练的模型,称为基础模型。
第二个模型是一个文档生成器,它将根据提示问题生成更像人类的响应。这就是 ChatGPT 模型。
ChatGPT模型是一个推理模型,可以根据提示问题生成响应。我会说它 99% 是基本模型,但有两个额外的训练步骤:微调步骤和根据人类反馈进行强化学习步骤。
预训练:基础模型
这构成了人工智能革命的核心,也是真正的魔力所在。
训练模型是向其提供大量数据并让它从中学习的过程。
正如 GPT-3 论文中所述,基础模型是在大量互联网数据上进行训练的。对于像你我这样的人来说,这不是一件容易的事。它不仅需要获取数据,还需要GPU、TPU等大量的计算能力。
但不用担心,我们仍然可以学习在自己的计算机上训练小型 GPT 模型。将在下一个主题中展示如何执行此操作。
LLM 训练背后的创新在于 Transformer 架构的引入,该架构使模型能够从大量数据中学习,同时保留输入不同部分之间的关键上下文关系。
通过维护这些联系,模型可以根据提供的上下文有效地推断出新的见解,无论它们是单个单词、句子、段落还是其他内容。凭借这种能力,LLM训练为自然语言处理和生成任务开辟了新的机会,使