LLM大模型基础入门系列之:(二)大模型如何工作

〔更多精彩AI内容,尽在 「魔方AI空间」 公众号,引领AIGC科技时代〕

本文作者:猫先生

引 言

本文是 LLM 基础入门系列的第 2 篇。在本文中,我们的目标是提供关于大语言模型 (LLM) 如何运行的易于理解的解释。

LLM大模型基础入门系列之:(一)(一)什么是大语言模型?-优快云博客

​​​​​​​LLM大模型基础入门系列之:(三)Transformer 架构-优快云博客​​​​​​​

LLM大模型基础入门系列之:(四)从头开始编写LLM代码-优快云博客

LLM 的工作原理

我们首先看一下文档完成器模型的工作原理:
在这里插入图片描述
用户提示:

A banana is

模型响应:

an elongated, edible fruit

然后,文档生成器模型的工作原理如下:
在这里插入图片描述

用户提示:

I want to buy a new car

模型响应:

What kind of car do you want to buy?

注意上面两者的区别。

第一个模型只是一个文档完成器,它只会用它发现的最有可能成为下一个角色的内容来完成提示。这是我们在互联网数据块上训练的模型,称为基础模型。

第二个模型是一个文档生成器,它将根据提示问题生成更像人类的响应。这就是 ChatGPT 模型。

ChatGPT模型是一个推理模型,可以根据提示问题生成响应。我会说它 99% 是基本模型,但有两个额外的训练步骤:微调步骤和根据人类反馈进行强化学习步骤。

预训练:基础模型

这构成了人工智能革命的核心,也是真正的魔力所在。

训练模型是向其提供大量数据并让它从中学习的过程。

正如 GPT-3 论文中所述,基础模型是在大量互联网数据上进行训练的。对于像你我这样的人来说,这不是一件容易的事。它不仅需要获取数据,还需要GPU、TPU等大量的计算能力。

但不用担心,我们仍然可以学习在自己的计算机上训练小型 GPT 模型。将在下一个主题中展示如何执行此操作。

LLM 训练背后的创新在于 Transformer 架构的引入,该架构使模型能够从大量数据中学习,同时保留输入不同部分之间的关键上下文关系。

通过维护这些联系,模型可以根据提供的上下文有效地推断出新的见解,无论它们是单个单词、句子、段落还是其他内容。凭借这种能力,LLM训练为自然语言处理和生成任务开辟了新的机会,使

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值