一、前言
在探索大语言模型(LLM)应用的新架构时,知名投资公司 Andreessen Horowitz 提出了一个观点:向量数据库是预处理流程中系统层面上最关键的部分。它能够高效地存储、比较和检索高达数十亿个嵌入(也就是向量)。
那么,为什么要如此强调向量数据库的重要性呢?这是因为计算机虽然功能强大,但并不擅长直接理解文本、图像、音频等人类友好的数据格式。通过将这些数据转换成数值型的“向量”,我们能够让计算机更高效地处理它们。而普通的数据库并不是为了处理这样的向量而设计的,尽管现在随着生成式 AI 技术的普及,它们开始逐渐支持向量操作。
在深度学习领域,大语言模型(LLM)和嵌入模型是两个非常关键的组成部分。嵌入模型是将语言转化为向量空间的模型,而大语言模型则是一种能够生成自然流畅语言的深度学习模型。现有的嵌入模型已经在检索增强生成(RAG)等应用中取得了不错的效果,但在特定领域和任务中,它们的表现仍然存在缺陷。因此,在一些特定领域的场景下,定制化的微调训练嵌入模型也比较重要,可以根据特定的业务需求进行训练,更好地理解和把握业务语境,提升整体的业务表现。但由于训练个性化嵌入模型面临着成本高、复杂度高等挑战,所以一般我们在实际的业务场景落地的时候都会选择OpenAI提供的嵌入模型或一些开源的嵌入模型,这些模型都属于预先训练好的通用型的嵌入模型,适用于一般应用的嵌入模型,对于特定场景的语义会存在一定的空白。
不过,微软的研究者们在一篇新论文中提出了一项技术,这项技术大幅降低了训练个性化嵌入模型的成本和复杂度。该技术采用开源的大语言模型而不是BERT类的编码器作为基础,简化了重训练的步骤,并利用专有专有的大语言模型自动产生带标签的训练数据。这样的研究为新的LLM应用打开了大门,也使得各个组织能够根据自己的需求打造定制化的LLM。
接下来就让我们一起来简单回顾一下,为什么向量嵌入如此关键。本文将带你了解向量、向量嵌入以及向量数据库的基础知识,并介绍如何利用大语言模型(LLM)打造定制化的 Embedding 模型。
二、什么是向量?
究竟什么是向量呢?向量是通过一组固定长度的数字来表征,这组数字既反映了量的大小,也指明了方向。至少需要两个维度的数据才能构成一个向量,比如在平面上的点 [1,1]。同理,三维空间中的点可以表示为 [1,1,1]:

在机器学习领域,一个向量可能包含成千上万个维度,这已经多到我们难以直观展示。但关键在于,一旦将对象转换为数学向量,我们就可以利用向量运算进行距离测量、相似度计算和变换等操作。这些运算对于相似性搜索、聚类、分类和揭示模式与趋势等多种任务至关重要。
三、什么是向量嵌入(Vector Embedding)?
向量嵌入,简称“嵌入”,是将通常无法直接量化的数据对象转化为数字向量形式。这些嵌入能够在一个更紧凑的格式中捕捉到原始数据的本质属性和相互关系,它们在机器学习领域有着广泛应用。
举个例子,一个包含数百万像素点的图像,每个像素点都有其独特颜色、色调和对比度,其向量嵌入可能只包含几百或几千个数值。这样,嵌入就能在一个

文章阐述了大语言模型在处理文本、图像等非结构化数据中的转换技术,以及向量数据库如何优化存储和检索。微软的新方法降低了个性化嵌入模型训练的复杂度,推动了大模型在实际业务中的应用
最低0.47元/天 解锁文章
打造定制化的Embedding模型&spm=1001.2101.3001.5002&articleId=135476933&d=1&t=3&u=b485826dca3f4234820ff21bdb28e737)
578

被折叠的 条评论
为什么被折叠?



