Embedding模型在大语言模型中的重要性

最新推荐文章于 2025-11-10 15:01:02 发布

原创

最新推荐文章于 2025-11-10 15:01:02 发布 · 1.4k 阅读

12 ·

CC 4.0 BY-SA版权

文章标签：

#embedding #语言模型 #人工智能

引言

随着大型语言模型的发展，以ChatGPT为首，涌现了诸如ChatPDF、BingGPT、NotionAI等多种多样的应用。公众大量地将目光聚焦于生成模型的进展之快，却少有关注支撑许多大型语言模型应用落地的必不可少的Embedding模型。本文将主要介绍为什么Embedding模型在大语言模型中十分重要、当前主流的Embedding训练方法，以及我们关于Embedding模型初步探索的一些思考。

1 Embedding技术简介及历史概要

在机器学习和自然语言处理中，Embedding模型是指将高维度的数据（例如文字、图片、视频）映射到低维度空间的过程。简单来说，embedding向量就是一个N维的实值向量，它将输入的数据表示成一个连续的数值空间中的点。本文主要关注文本embedding。

Embedding重要的原因在于它可以表示单词或者语句的语义。实值向量的embedding可以表示单词的语义，主要是因为这些embedding向量是根据单词在语言上下文中的出现模式进行学习的。例如，如果一个单词在一些上下文中经常与另一个单词一起出现，那么这两个单词的嵌入向量在向量空间中就会有相似的位置。这意味着它们有相似的含义和语义。

Embedding的概念可以追溯到20世纪中叶，Harris提出了分布式语义理论。到20世纪80年代，人们开始尝试用神经网络来学习单词的embedding表示。自2010年以来，随着深度学习技术的发展，先后出现了以Word2Vec、GloVe、FastText为代表的静态向量Embedding和使用ELMo、GPT、BERT为代表生成上下文相关的动态向量embedding，后者可以更好地捕捉单词的语义和上下文信息。

2 Embedding在大模型中的价值

如前文所述，也是被我们熟知的，embedding向量包含语义信息，含义越相近的单词，embedding向量在空间中的位置也越相近。实值向量embedding可以通过从大量的数据中学习单词的语义和上下文信息，从而可以进行向量运算和在不同自然语言处理任务中共享和迁移。

然而，这是Embedding之前的价值。在大语言模型时代，Embedding又有什么新的价值呢？

这要从类ChatGPT模型的缺陷说起。尽管它们能力强大，但目前依然存在以下几点问题：

训练数据不实时（如ChatGPT是基于2021年9月之前的数据训练），重新训练成本过高，不现实
输入文本长度有限制，通常限制在几千到数万个tokens之间
无法访问不能公开的文档

对此，OpenAI发布了一篇文档，说明如何基于embedding使用两步搜索的方式来解决GPT无法处理长文本和最新数据的问题。两步搜索，即先搜索文本库以查找相关的文本部分，再将检索到的文本部分添加到类ChatGPT模型的输入中，获取回复。

以一个代表性的应用来说明，当我们想让大模型根据我们给定的pdf文档进行问题回复时，就可以对超长pdf进行分块，获取每个分块内容的embedding，并使用向量数据库存储。接下来，当你提出问题“xxx在文档中是如何实现的？”时，就可以使用你的问题embedding，去数据库中检索得到与问题embedding相似度最高的pdf内容块embedding。最终把检索得到的pdf内容块和问题一起输入模型，来解决新知识和超长文本输入的问题。

因此，尽管当前的讨论热度不高，但embedding模型的探索对于大语言模型的落地是必不可少的。