矢量存储是一种特殊的数据库类型,与传统数据库存储文本或数字不同,它专门用于保存矢量数据。矢量是一组数字列表,能够表达文本的语义信息。它通过一种叫做嵌入的过程生成这些矢量。当模型接收一个句子时,会将其转化为高维空间中的一个点。在这个空间里,含义相近的文本会被聚集在一起。

当你与 AI 助手进行对话时,它会让你感觉它似乎能够记住你之前说过的话。然而,实际上大型语言模型本身并不具备真正意义上的记忆功能。如果不再次提供相关信息,它并不会记住之前的对话内容。那么,为什么它能够“记住”事物呢?答案就在于一种称为向量存储的技术,这正是本文将要介绍的核心内容。
什么是向量存储?
矢量存储是一种特殊的数据库类型,与传统数据库存储文本或数字不同,它专门用于保存矢量数据。矢量是一组数字列表,能够表达文本的语义信息。它通过一种叫做嵌入的过程生成这些矢量。当模型接收一个句子时,会将其转化为高维空间中的一个点。在这个空间里,含义相近的文本会被聚集在一起。

例如,在向量空间中,"我喜欢寿司"可能会与"寿司是我的最爱食物"接近。这些嵌入能够帮助AI代理找到相关的想法,即使词语有所不同。
嵌入式工作原理
假设用户告诉助手:
复制
“I live in Austin, Texas.”
模型将这个句子转换为一个向量:
复制
[0.23, -0.41, 0.77, ..., 0.08]
这个向量对人类来说意义不大,但对 AI 来说,它是捕捉句子含义的一种方式。该向量会存储在向量数据库中,还会附带一些额外信息 - 也许是时间戳或者来自这个用户的注释。
如果用户说:
复制
“Book a flight to my hometown.”
该模型会将这个新句子转换成向量,

最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



