从零开始理解大语言模型(LLM)原理(四)为什么需要嵌入?

一、嵌入(Embeddings)

还记得吗?我们已经把一个能够预测“叶子”还是“花”的简单神经网络,成功的用来预测句子的“下一个输出字符”,从而构建了一个初步的语言模型:

在这里插入图片描述

但这个简单模型离真正的现代语言模型还相差甚远,需要大量的优化创新,今天首先来看现代语言模型的一个基础概念:嵌入(Embedding)与向量(Vectors)。

你可能在RAG(检索增强生成)应用中了解了如何利用嵌入与向量实现语义检索。但请注意嵌入是语言模型得以工作的基础而非RAG。

1、从简单的字符映射到嵌入

在前面的模型中,输入采用简单的数字编码,字符通常被表示为任意的数字。例如,a = 1b = 2,依此类推。这种方法虽然简单,但存在明显的缺陷:这些数字没有任何语义信息,无法捕捉字符之间的丰富的语义关系或上下文。

“嵌入” 就是为了解决这个问题。嵌入是一种将字符、单词或符号映射到一组数字的方法。 这些数字不是随意选择的,而是通过训练模型学习得到的。**核心思想是:通过优化输入表示,使模型能够更好地捕捉语言的结构和语义。

这里的一组数字我们称为“向量”,向量是一个有序的数字集合。 例如,一个长度为10的向量可以表示为 [0.1, 0.2, 0.3, …, 0.10]。注意,每个数字在向量中的位置是固定的,交换位置会得到不同的向量。就像前面的“叶子 / 花朵”的数据,如果交换叶子的 R 和 G 值,就会得到不同的颜色,也就不再是同一个向量。

2、嵌入(向量表示)是如何训练出来的?

那么这些输入的数字(即向量)表示如何被训练出来的呢?答案是**与神经网络的权重训练类似,即通过梯度下降来获得最优的向量表示。**还记得权重的训练过程吗:

  1. 输入数据:将字符或单词输入模型。
  2. 计算输出:通过神经网络计算输出结果。
  3. 计算损失:将输出与预期结果进行比较,计算损失(即误差)。
  4. 调整权重:通过梯度下降调整模型的权重,以最小化损失,开始新一轮训练。
  5. 多轮迭代:经过多轮的迭代,最终将会把权重调整到一个合适的值。

所以嵌入的训练过程也是类似:

  1. 初始化嵌入:首先为每个字符分配一个随机的向量,即一组数字。
  2. 输入到网络:我们将这些向量传递到神经网络中进行处理。
  3. 优化向量:与优化权重类似,通过计算损失函数,来优化这些嵌入向量的值。通过梯度下降,不断调整这些向量,使得模型输出更接近我们期望的结果。

随着训练的进行,这些向量会逐渐变得更加“智能”,它们会捕捉到每个字符的语义特征,并且这种嵌入方式可以在不同的模型中复用。例如,如果我们为字符“a”学习到的向量是[0.2, 0.5, 0.1, 0.3],那么每次我们遇到字符“a”时,模型都会使用这个向量进行处理,而不必每次重新随机初始化。

3、向量如何输入神经网络?

假设我们为每个字符分配一个长度为10的向量。那么,如果输入“humpty dumpt”这一串12个字符,就需要将每个字符的向量拼接起来,形成一个长度为120的输入层(12字符 × 10数字/字符)。

  • 输入层的扩展:原本的输入层可能只有12个神经元(每个字符对应一个神经元),但现在扩展到了120个神经元。每个字符的向量被依次排列,输入到网络中。

  • 所有的嵌入向量长度必须相同,否则我们就无法将所有字符组合输入到网络中。例如,“humpty dumpt” 和下一次迭代中的 “umpty dumpty”,在这两种情况下,我们都要向网络中输入 12 个字符,如果这 12 个字符不是都由长度为 10 的向量表示,我们就无法可靠地将它们全部输入到 120 个长度的输入层中。

4、嵌入矩阵

为了方便管理和使用嵌入向量,这里引入嵌入矩阵的概念。

  • 什么是嵌入矩阵?**嵌入矩阵是一个二维数组,其中每一列对应一个字符或单词的向量。**例如,假设我们有26个字母,每个字母的向量长度为10,那么嵌入矩阵的大小就是 10 × 26。

在这里插入图片描述

  • 如何使用嵌入矩阵?当我们需要表示某个字符时,只需查找嵌入矩阵中对应的列。 例如,字母“a”的向量就是嵌入矩阵的第一列。

嵌入矩阵不仅可以用于字符,还可以用于单词、符号,甚至更复杂的语言单元。它的灵活性使得嵌入成为现代语言模型的核心组件之一。通过嵌入将词汇转换成的向量还有一个特征,这些向量可以捕捉到词汇之间的相似性。 例如,词汇的嵌入向量可以捕捉到“king”和“queen”之间的语义关系,即它们的嵌入向量距离非常接近。

从最初的简单数字表示到高维度嵌入向量,嵌入技术让神经网络能够更好地理解和处理复杂的语言信息,为进一步生成自然流畅的人类语言奠定基础。


二、如何系统学习掌握AI大模型?

AI大模型作为人工智能领域的重要技术突破,正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口,掌握AI大模型的知识和技能将变得越来越重要。

学习AI大模型是一个系统的过程,需要从基础开始,逐步深入到更高级的技术。

这里给大家精心整理了一份全面的AI大模型学习资源,包括:AI大模型全套学习路线图(从入门到实战)、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等,资料免费分享

1. 成长路线图&学习规划

要学习一门新的技术,作为新手一定要先学习成长路线图方向不对,努力白费

这里,我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。
在这里插入图片描述

2. 大模型经典PDF书籍

书籍和学习文档资料是学习大模型过程中必不可少的,我们精选了一系列深入探讨大模型技术的书籍和学习文档,它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础(书籍含电子版PDF)

在这里插入图片描述

3. 大模型视频教程

对于很多自学或者没有基础的同学来说,书籍这些纯文字类的学习教材会觉得比较晦涩难以理解,因此,我们提供了丰富的大模型视频教程,以动态、形象的方式展示技术概念,帮助你更快、更轻松地掌握核心知识

在这里插入图片描述

4. 2024行业报告

行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。

在这里插入图片描述

5. 大模型项目实战

学以致用 ,当你的理论知识积累到一定程度,就需要通过项目实战,在实际操作中检验和巩固你所学到的知识,同时为你找工作和职业发展打下坚实的基础。

在这里插入图片描述

6. 大模型面试题

面试不仅是技术的较量,更需要充分的准备。

在你已经掌握了大模型技术之后,就需要开始准备面试,我们将提供精心整理的大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。

在这里插入图片描述

全套的AI大模型学习资源已经整理打包,有需要的小伙伴可以微信扫描下方优快云官方认证二维码,免费领取【保证100%免费

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值