从零开始理解大语言模型（LLM）原理（四）为什么需要嵌入？

最新推荐文章于 2025-05-30 10:05:16 发布

大模型RAG实战

最新推荐文章于 2025-05-30 10:05:16 发布

阅读量941

点赞数 22

文章标签：语言模型深度学习人工智能大模型 agi LLM 大语言模型

本文链接：https://blog.youkuaiyun.com/m0_59614665/article/details/145647709

版权

一、嵌入（Embeddings）

还记得吗？我们已经把一个能够预测“叶子”还是“花”的简单神经网络，成功的用来预测句子的“下一个输出字符”，从而构建了一个初步的语言模型：

在这里插入图片描述

但这个简单模型离真正的现代语言模型还相差甚远，需要大量的优化创新，今天首先来看现代语言模型的一个基础概念：嵌入（Embedding）与向量（Vectors）。

你可能在RAG（检索增强生成）应用中了解了如何利用嵌入与向量实现语义检索。但请注意嵌入是语言模型得以工作的基础而非RAG。

1、从简单的字符映射到嵌入

在前面的模型中，输入采用简单的数字编码，字符通常被表示为任意的数字。例如，a = 1，b = 2，依此类推。这种方法虽然简单，但存在明显的缺陷：这些数字没有任何语义信息，无法捕捉字符之间的丰富的语义关系或上下文。

“嵌入” 就是为了解决这个问题。嵌入是一种将字符、单词或符号映射到一组数字的方法。 这些数字不是随意选择的，而是通过训练模型学习得到的。**核心思想是：通过优化输入表示，使模型能够更好地捕捉语言的结构和语义。

这里的一组数字我们称为“向量”，向量是一个有序的数字集合。 例如，一个长度为10的向量可以表示为 [0.1, 0.2, 0.3, …, 0.10]。注意，每个数字在向量中的位置是固定的，交换位置会得到不同的向量。就像前面的“叶子 / 花朵”的数据，如果交换叶子的 R 和 G 值，就会得到不同的颜色，也就不再是同一个向量。

2、嵌入（向量表示）是如何训练出来的？

那么这些输入的数字（即向量）表示如何被训练出来的呢？答案是**与神经网络的权重训练类似，即通过梯度下降来获得最优的向量表示。**还记得权重的训练过程吗：

输入数据：将字符或单词输入模型。
计算输出：通过神经网络计算输出结果。
计算损失：将输出与预期结果进行比较，计算损失（即误差）。
调整权重：通过梯度下降调整模型的权重，以最小化损失，开始新一轮训练。
多轮迭代：经过多轮的迭代，最终将会把权重调整到一个合适的值。

所以嵌入的训练过程也是类似：

初始化嵌入：首先为每个字符分配一个随机的向量，即一组数字。
输入到网络：我们将这些向量传递到神经网络中进行处理。
优化向量：与优化权重类似，通过计算损失函数，来优化这些嵌入向量的值。通过梯度下降，不断调整这些向量，使得模型输出更接近我们期望的结果。

随着训练的进行，这些向量会逐渐变得更加“智能”，它们会捕捉到每个字符的语义特征，并且这种嵌入方式可以在不同的模型中复用。例如，如果我们为字符“a”学习到的向量是[0.2, 0.5, 0.1, 0.3]，那么每次我们遇到字符“a”时，模型都会使用这个向量进行处理，而不必每次重新随机初始化。

3、向量如何输入神经网络？

假设我们为每个字符分配一个长度为10的向量。那么，如果输入“humpty dumpt”这一串12个字符，就需要将每个字符的向量拼接起来，形成一个长度为120的输入层（12字符 × 10数字/字符）。

输入层的扩展：原本的输入层可能只有12个神经元（每个字符对应一个神经元），但现在扩展到了120个神经元。每个字符的向量被依次排列，输入到网络中。
所有的嵌入向量长度必须相同，否则我们就无法将所有字符组合输入到网络中。例如，“humpty dumpt” 和下一次迭代中的 “umpty dumpty”，在这两种情况下，我们都要向网络中输入 12 个字符，如果这 12 个字符不是都由长度为 10 的向量表示，我们就无法可靠地将它们全部输入到 120 个长度的输入层中。

4、嵌入矩阵

为了方便管理和使用嵌入向量，这里引入嵌入矩阵的概念。

什么是嵌入矩阵？**嵌入矩阵是一个二维数组，其中每一列对应一个字符或单词的向量。**例如，假设我们有26个字母，每个字母的向量长度为10，那么嵌入矩阵的大小就是 10 × 26。

在这里插入图片描述

如何使用嵌入矩阵？当我们需要表示某个字符时，只需查找嵌入矩阵中对应的列。 例如，字母“a”的向量就是嵌入矩阵的第一列。

嵌入矩阵不仅可以用于字符，还可以用于单词、符号，甚至更复杂的语言单元。它的灵活性使得嵌入成为现代语言模型的核心组件之一。通过嵌入将词汇转换成的向量还有一个特征，这些向量可以捕捉到词汇之间的相似性。 例如，词汇的嵌入向量可以捕捉到“king”和“queen”之间的语义关系，即它们的嵌入向量距离非常接近。