开篇
嘿,各位小伙伴!今天我们来聊一个超级有趣的话题:embedding向量化数据。听起来很高大上对不对?别担心,让我用最简单的方式告诉你这是啥。 想象一下,你有一大堆文字、图片或者其他数据,想要让计算机理解它们该怎么办?这就需要我们把它们变成计算机能读懂的"数字",这个过程就叫embedding向量化!
简单来说,就是把数据转换成一串数字,这串数字就像是数据的"指纹",我们管它叫向量。
比如,"我爱吃火锅"这句话,经过向量化后可能变成[-0.2, 0.5, 0.8]这样的数字组合。 那这些数字有什么用呢?最神奇的是,通过计算这些向量之间的余弦值(简单理解就是数学上的一个相似度打分),我们就能知道不同数据之间有多相似!余弦值越接近1,说明两个数据越相似;越接近-1,说明越不相似。 所以下次当你使用搜索引擎,或者看到AI给出惊人的相似推荐时,别忘了,背后可能就是这些小向量们在默默发挥作用哦!
如何生成向量
这张图是我经常用在博客中讲关于Rag类应用的。这是因为Rag自2023年年初被越来越多的人所接受时第一个出现的标准数据流就是这样的。
关键在于这里面的一个个向量是怎么计算