大语言模型 | 一文搞懂什么是Embedding(嵌入)

GPT(Generative Pre-trained Transformer)分别代表了生成式(Generative)、已预训练的(Pre-trained)和Transformer架构,这三部分共同构成了当前火热的大语言模型(LLM)。

一、GPT 中的三个核心概念

  • 生成式 AI:指计算机通过学习海量数据,自主地生成文字、图片、语音甚至视频。实际的应用包括ChatGPT、GPT-4o生成图像、以及视频生成模型sora等。
  • 预训练:指大语言模型的训练通常会经历的一个基本流程,即“预训练(Pretraining)→ 指令微调(SF)→ 奖励模型(RM)→ 基于人类反馈的强化学习(RLHF)”。预训练阶段是整个流程中耗时最长、成本最高并且完全没有人工干预的阶段。
  • Transformer:是一种由Google Brain团队在2017年论文《Attention Is All You Need》中提出的深度学习架构。Transformer最初用于语言翻译任务,但后来被广泛应用于文本理解、图像处理、语音识别、自动驾驶,甚至蛋白质结构预测等众多领域,因而也被称作“大一统AI架构”。自2020年以来,基于Transformer的生成式AI掀起了新一轮AI技术热潮。

二、大语言模型的工作流程

我们先从整体上看一下LLM是如何工作的:

  1. 用户发送一段文本(Prompt);
  2. 文本经过词元化(Tokenization)处理;
  3. Token进入嵌入层(Embedding),转换成计算机能理解的高维向量;
  4. 向量矩阵输入Transformer,经过多层注意力机制与前馈网络,模型学习并理解上下文,预测下一个单词的概率分布;
  5. 输出层通过softmax函数,为词汇表中的每个token计算概率,最高概率的token即为生成的下一个词。

在预训练阶段,整个流程保持一致,只是输入数据变成了从互联网上抓取的大量文本。每生成一个词后,模型都会将其与实际文本进行对比,通过反向传播算法更新模型的权重。

图片

三、Token 化处理

预训练的第一步称为Token化。Token(词元)是文本处理的最小单位,可以是一个完整的单词、一部分单词,也可以是标点符号、数字、空格等。这些数据在经过token(词元)化后,每个 token 会被转换成一组对应的数字向量。

进行Token化的原因主要有两个:

  • 机器理解:计算机只能处理数字,通过Token化可以将原始文本转换成数字形式。
  • 节约资源:Token化能极大减少词汇表的规模,从而节省计算资源。

图片

这也是为什么会出现 LLM 不知道 strawberry 中有几个 r 的原因,“strawberry”这个单词在LLM中通常被拆成“str”、“aw”、“berry”三个token,因此模型难以数清单词内有几个字母“r”。

图片

四、Embedding(嵌入)的原理

嵌入由两部分组成:词嵌入(Word Embedding)和位置嵌入(Position Embedding)。

词嵌入(Word Embedding)

在这里插入图片描述

这些权重一开始是随机初始化的。你可以把它们想象成大脑中的神经元突触:它们决定了模型的初始“认知”状态。随着模型学习过输入的数据后,这些权重不断调整,使模型更准确地理解和生成文本。

图片

位置嵌入(Position Embedding)

除了词嵌入,还有位置嵌入,它捕获的是每个token在文本序列中的位置信息。位置嵌入也是以随机权重开始的,长度由模型的上下文长度(context length)决定,即模型每次最多可处理的token数量。

位置嵌入之所以重要,是因为同一个单词在不同上下文中含义可能截然不同。例如,“model”在机器学习中指模型,在时尚界指模特,而在产品参数中则可能表示型号。Transformer架构具有并行处理整个序列的能力,因此必须结合位置嵌入,才能精确理解每个词在特定上下文中的具体含义。以GPT-3为例,上下文长度为 2048,也就是说超过这个长度后就不在模型的上下文理解范围中了,也会表现为“忘记”了此前的对话。但是最新的 GPT-4.5估计有40 万的上下文长度,大概相当于两本书,基本不会受上下文长度的限制了。

图片

融合词嵌入和位置嵌入

在进入Transformer模型前,词嵌入和位置嵌入会以元素级相加的方式融合成最终的输入嵌入向量。这种融合方式虽然最初没有严格理论依据,但在实践中被证明是简单有效的。

五、如何直观理解Embedding?

我们可以把Embedding想象成一个巨大的高维语义空间,空间中每个词都有自己的位置和方向。语义相近的词,在空间中会靠得更近。当我们将这个高维空间压缩成二维空间时,可以更直观地观察到词语之间的关系。

图片

大语言模型的生成过程可以看作是在这个空间中进行的一种“语义运动”:根据前面的文本不断确定方向,进而预测并生成下一个词。

图片

如果你想更直观地理解Embedding,可以访问LLM visualization网站亲自体验,这种交互式的方式会让你更清楚地看到Embedding空间的实际效果,很有趣。

图片


如何系统学习掌握AI大模型?

AI大模型作为人工智能领域的重要技术突破,正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口,掌握AI大模型的知识和技能将变得越来越重要。

学习AI大模型是一个系统的过程,需要从基础开始,逐步深入到更高级的技术。

这里给大家精心整理了一份全面的AI大模型学习资源,包括:AI大模型全套学习路线图(从入门到实战)、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等,资料免费分享

1. 成长路线图&学习规划

要学习一门新的技术,作为新手一定要先学习成长路线图方向不对,努力白费

这里,我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。

在这里插入图片描述

2. 大模型经典PDF书籍

书籍和学习文档资料是学习大模型过程中必不可少的,我们精选了一系列深入探讨大模型技术的书籍和学习文档,它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础(书籍含电子版PDF)

在这里插入图片描述

3. 大模型视频教程

对于很多自学或者没有基础的同学来说,书籍这些纯文字类的学习教材会觉得比较晦涩难以理解,因此,我们提供了丰富的大模型视频教程,以动态、形象的方式展示技术概念,帮助你更快、更轻松地掌握核心知识

在这里插入图片描述

4. 大模型行业报告

行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。

在这里插入图片描述

5. 大模型项目实战

学以致用 ,当你的理论知识积累到一定程度,就需要通过项目实战,在实际操作中检验和巩固你所学到的知识,同时为你找工作和职业发展打下坚实的基础。

在这里插入图片描述

6. 大模型面试题

面试不仅是技术的较量,更需要充分的准备。

在你已经掌握了大模型技术之后,就需要开始准备面试,我们将提供精心整理的大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。

在这里插入图片描述

全套的AI大模型学习资源已经整理打包,有需要的小伙伴可以微信扫描下方优快云官方认证二维码,免费领取【保证100%免费

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值