【大模型必备】向量数据库入门指南：从踩坑到精通，一篇讲透（建议收藏）

最新推荐文章于 2025-11-03 14:02:05 发布

原创最新推荐文章于 2025-11-03 14:02:05 发布 · 1.2k 阅读

11 ·

CC 4.0 BY-SA版权

文章标签：

#数据库 #人工智能 #转行 #程序员 #ai #大模型 #语言模型

该文章已生成可运行项目，

说起向量数据库，我得先聊聊最开始在做RAG项目时遇到的一个头疼问题。当时我有几万份技术文档需要检索，用传统的关键词搜索总是找不到我想要的内容。比如我搜"机器学习"，但文档里写的是"AI算法"，结果就错过了。

后来我才知道，这就需要用到向量数据库这个神器了。简单来说，如果把嵌入技术比作是给文字拍照片（把文字转成数字），那向量数据库就像是一个超级聪明的相册管理员，不仅能存这些"照片"，还能帮你快速找到最相似的那几张。

利用嵌入技术，将文章中的段落、句子等信息转换成一系列数字。利用向量存储技术，我们就能从数十亿个向量中迅速找出最相关的片段。该技术专门负责优化这部分检索流程，尽可能以最快、更精准，并且最节省资源的方式达到检索目的。

一、向量数据库到底是个啥？

刚接触这个概念时，我也是一脸懵。什么叫 “多维向量”，刚听起来概念很模糊吧？

其实你可以这么理解：嵌入（Embedding） 就像是给每个词、每句话都分配一个专属的"身份证号码"，只不过这个号码不是简单的数字，而是一串包含了语义信息的数字数组。比如"苹果"可能是 [0.1, -0.3, 0.8, …]，"水果"可能是 [0.2, -0.2, 0.7, …]，你会发现它们的数字挺相近的，因为语义也相近。

向量数据库呢，就是专门用来存储和管理这些"身份证号码"的地方。最牛的是，它不是简单的存储，而是能够理解这些数字背后的语义关系。当你问它"找一些关于水果的内容"，它能智能地把"苹果"、“香蕉”、"橘子"这些相关的内容都找出来，即使你的原文里压根没出现"水果"这个词。

二、传统数据库哪里不够用了？

传统数据库：一个严格的图书管理员。 你必须说出准确书名，比如《Python编程》，他才能找到。如果你说《蟒蛇语言开发指南》，即使内容一样，他也会告诉你“找不到”。他擅长处理订单、商品这类格式规整的信息。

向量数据库：一个懂你的朋友。 你说“找点Python相关的”，他会把关于“蟒蛇语言”、“编程开发”和“代码实战”的内容都找给你，因为他理解这些词在意思上是相通的。

为什么这很重要？

因为像ChatGPT这样的大模型，知识是“过时”的，就像一本去年的百科全书，它不知道最新发生的事，更不懂你公司的内部文件。

解决方法就是RAG（检索增强生成）：简单说，就是给大模型配一个由向量数据库组成的“外挂大脑”。提问时，先用这个“大脑”找到相关资料，然后让大模型参考这些资料来回答。

所以向量数据库在现代应用程序中的作用越来越重要。其技术栈也不仅仅局限于"保存向量"，还涵盖了向量索引和检索的优化机制。后面，我们将详细探讨这部分内容。

在这里插入图片描述

三、动手实践：让你10分钟搞懂向量存储

接下来我们用Faiss库来实际体验一下向量数据库的魅力。Faiss是Facebook AI 开源的向量检索库，在学术界和工业界都很受欢迎，性能强悍且使用相对简单。

我们来建一个简单的文档检索系统，你就能直观感受到向量数据库是怎么工作的了：

# 需要安装的依赖包
# pip install faiss-cpu sentence-transformers numpy
import numpy as np
import faiss
from sentence_transformers import SentenceTransformer

class SimpleVectorDB:

    def __init__(self):
        """
        初始化向量数据库
        """
        # 这个数组用来保存原始文本，检索时要返回给用户看
        # 我刚开始忘了这步，结果只能返回向量，用户根本看不懂 
        self.texts = []
        
        # 加载预训练模型，这里用的是中文优化的BGE模型
        # 选这个是因为对中文支持比较好，你也可以试试其他的
        self.model = SentenceTransformer("BAAI/bge-small-zh-v1.5")
        
        # 获取模型的向量维度
        self.dimension = self.model.get_sentence_embedding_dimension()
        
        # 创建Faiss索引 - 使用L2距离（欧几里得距离）
        self.index = faiss.IndexFlatL2(self.dimension)

    def add_documents(self, documents):
        """
        步骤1: 批量将文本转换为向量，并添加到向量数据库
        """
        print("=== 开始向量化 ===")
        vectors = []

        for i, doc inenumerate(documents):
            print(f"正在处理第 {i+1} 个文档（总共{len(documents)}个）:")
            # 这一步就是把文字"翻译"成数字的过程
            # 第一次看到一句话变成512个小数点，还挺震撼的
            vector = self.model.encode([doc])
            print(f"原文: '{doc}'")
            print(f"向量维度: {vector.shape} - 一句话变成了{vector.shape[1]}个数字！")
            print(f"向量前10个值: {vector[0][:10]} - 看起来很随机，但其实包含了语义信息")
            print(f"向量数据类型: {vector.dtype}")
            print("-" * 50)
            vectors.append(vector[0])
            self.texts.append(doc)

        # 转换为numpy数组（Faiss要求的格式）
        vectors_array = np.array(vectors, dtype=np.float32)
        print(f"所有向量的形状: {vectors_array.shape}")
        print(f"向量矩阵大小: {vectors_array.nbytes} 字节")
        
        """
        步骤2 索引构建，添加到Faiss索引中
        """
        self.index.add(vectors_array)
        print(f"索引中的向量数量: {self.index.ntotal}")
        return vectors_array

    def search(self, query, k=3):
        """
        步骤3: 向量检索
        """
        print(f"\n=== 向量检索过程 ===")
        print(f"查询: '{query}'")

        # 将查询文本转换为向量
        query_vector = self.model.encode([query])[0]
        query_vector = query_vector.reshape(1, -1).astype(np.float32)
        
        # 在索引中搜索最相似的k个向量
        distances, indices = self.index.search(query_vector, k)

        print(f"搜索结果:")
        results = []
        for i inrange(k):
            idx = indices[0][i]
            distance = distances[0][i]
            similarity = 1 / (1 + distance)  # 转换距离为相似度分数
            results.append(
                {
                    "text": self.texts[idx],
                    "distance": float(distance),
                    "similarity": float(similarity),
                    "index": int(idx),
                }
            )
            print(
                f"  {i+1}. 相似度: {similarity:.4f} | 距离: {distance:.4f} | 文本: '{self.texts[idx]}'"
            )

        return results

    def show_storage_details(self):
        """
        展示存储细节
        """
        print(f"\n=== 向量存储详情 ===")
        print(f"索引类型: {type(self.index).__name__}")
        print(f"向量维度: {self.dimension}")
        print(f"存储的向量数量: {self.index.ntotal}")
        print(
            f"索引大小估算: {self.index.ntotal * self.dimension * 4} 字节"
        )  # float32 = 4字节

        # 展示向量在内存中的存储形式
        if self.index.ntotal > 0:
            # 重构第一个向量来展示存储形式
            first_vector = self.index.reconstruct(0)
            print(f"第一个向量的存储形式:")
            print(f"  类型: {type(first_vector)}")
            print(f"  形状: {first_vector.shape}")
            print(f"  前5个值: {first_vector[:5]}")
            print(f"  后5个值: {first_vector[-5:]}")


def main():
    # 示例文档集合
    documents = [
        "苹果是一种营养丰富的水果",
        "Python是一种编程语言",
        "机器学习是人工智能的重要分支",
        "香蕉含有丰富的钾元素",
        "深度学习使用神经网络进行训练",
        "橙子富含维生素C",
        "自然语言处理是AI的应用领域",
    ]

    # 创建向量数据库
    vector_db = SimpleVectorDB()
    # 存储文档
    vectors = vector_db.add_documents(documents)
    # 显示存储详情
    vector_db.show_storage_details()
    # 执行检索
    queries = ["什么水果比较健康？", "编程相关的内容", "人工智能技术"]
    for query in queries:
        vector_db.search(query, k=3)

if __name__ == "__main__":
    main()

向量数据库存储原理解析

通过上面的代码，我们能够了解向量数据库的工作流程：

数据向量化过程

原始文本 → 预训练模型 → 数字向量
"苹果是营养水果" → [0.1, -0.3, 0.8, ...] (512个数字)

向量的实际存储形式

# 每个向量实际上就是一个数字数组
vector = [0.12, -0.34, 0.56, 0.78, ...]  # 512个float32数字
# 在内存中占用: 512 × 4字节 = 2,048字节

Faiss中的存储结构

向量矩阵 (n × d):
文档1: [0.1, -0.2,  0.3, ...]
文档2: [0.4,  0.1, -0.5, ...]  
文档3: [0.2,  0.7,  0.1, ...]
        ↑     ↑     ↑
      第1维  第2维  第3维 ...

检索工作原理

• 查询向量化: 查询文本转换为同样512维的向量
• 距离计算: 计算查询向量与所有存储向量的欧几里得距离
• 排序返回: 返回距离最小的k个结果

为什么向量存储有效？
- • 语义表示: 相似含义的文本在向量空间中距离更近
- • 快速检索: 数学运算比文本匹配快得多

四、向量数据库中的索引算法

根据上面的代码示例，我们能够了解向量数据库的工作流程：

数据存储： 将转化为高维向量有用、有意义的数据存入向量数据库。
索引构建： 这些"有意义"的向量被存储在索引中，用于执行智能相似性搜索。
查询检索： 接收查询请求后，向量数据库利用相似度度量方法（余弦相似度、欧几里得距离或点积）来比较查询向量与索引中的向量，确定最邻近向量。

为了使搜索准确且快速，我们需要关注更高效的搜索方法。在向量相似性搜索中，索引用于存储数据的向量表示。向量索引的灵活性是实现高效搜索的关键，因为没有"一刀切"的索引方案适用于所有相似性搜索用例。

在相似性索引中，搜索速度和搜索质量（准确性）之间总是存在权衡的。为了提高搜索速度，主要是两个方向：

减小向量大小： 通过降维减少向量值表示的位数。
减小搜索范围： 过聚类或根据特定属性、相似性或距离将向量组织成树状结构，并将搜索限制在最近的簇或通过最相似的分支进行过滤。

采用这些方法意味着不再执行穷尽的最近邻搜索，而是执行近似最近邻（ANN）搜索，因为不再搜索整个数据集。

接下来将以Faiss库为例，介绍几种常见的最近邻索引类型及其特点：

FLAT：最笨但最准确的方法

我的使用感受： 这就像是最原始的查找方法——把每个向量都比较一遍。听起来很笨，但结果绝对靠谱。

什么时候用：

• 数据量不大（几千到几万条）的时候
• 对准确性要求极高的场景
• 刚开始做项目，还在验证效果的阶段

性能特点： 搜索质量100分，速度嘛…就别指望了。内存占用还算合理。

工作原理： 不对输入的向量进行任何修改，因此没有近似或聚类，产生最准确的结果。在执行查询时，FLAT通过计算查询向量与数据库中每一个向量之间的相似或距离来进行比较，然后返回最近的 k 个匹配项（k-最近邻搜索）。

在这里插入图片描述

LSH：速度快但精度有限

特点： LSH的优点是检索速度快，算法简单，易于实现。然而，它的缺点是精确性相对较低，只适用于近似检索场景。而且随着数据分布不同，LSH的性能可能也会发生显著变化。

工作原理： 通过构建一组哈希函数，将相似的高维向量分组到同一哈希桶中，该函数最大化哈希冲突，而不是像传统哈希函数那样最小化冲突。这是为了将相似的对象分组在一起，极大化减少了计算量。

什么时候用： 最适合低维度向量和小型索引。如果向量维度较大（例如 128），或者索引较大，则应避免使用 LSH。

在这里插入图片描述

HNSW：多层高速路的智能检索

简单理解： 你可以把HNSW想象成一个多层的高速公路系统。最上层是高速干道，能快速跨越远距离；下面几层是省道、市道，逐渐细分；最底层是小区道路，精确定位。

工作原理： 查找时先从最上层的"高速路"开始，快速锁定大概区域，然后一层层往下，路越来越细，定位越来越准。这样既避免了"全城扫街"的笨方法，又保证了找到目标的准确性。

性能体验： 根据Faiss官方文档，HNSW在大数据集上的查询速度通常比FLAT快几十到上百倍，同时能保持90%+的召回率。但内存消耗会增加2-3倍。

什么时候选它： 数据量大、对速度有要求、内存充足的时候，HNSW绝对是首选。

IVF：通过聚类加速检索

特点： IVF通过将向量数据聚类来减少查询时需要比较的向量数量，从而显著加快检索速度。它是一种非常流行的索引，易于使用。

工作原理： 通过聚类减少搜索范围。它基于 Voronoi 图的概念，将高维向量置于一个空间中，并根据它们所属的"单元格"或"簇"进行分配。当查询向量落入某个单元格时，搜索范围被限制在该单元格内。为了解决查询向量落在单元格边缘时可能错过相邻单元格中最近数据点的问题（“边缘问题”），可以通过增加 nprobe 值来扩展搜索范围。

什么时候用： 是一个很好的可扩展选项，在合理的内存使用下提供高质量和合理的速度。

在这里插入图片描述

五、相似度计算的几种方法

说到相似度计算，我刚开始也是被一堆数学公式搞得头大。但其实你可以把它想象成教机器判断两个东西有多"像"的过程。

比如你问机器："苹果"和"香蕉"像不像？机器不能像人一样凭直觉判断，它只能通过计算两个向量之间的"距离"或"角度"来给出答案。就像你用尺子量两个点的距离一样，只不过这里是在512维的空间里量距离。

听起来很抽象？没关系，我们来看看几种常用的计算方法，每种都有自己的"个性"：

欧几里得距离（L2）：最直观的"直线距离"

人话解释： 就是你在地图上用直尺量两点间距离的方法，只不过现在是在高维空间里量。距离越小，说明两个向量越相似。

什么时候用：

• 处理图像、音频这些连续数据时特别好用
• 当你关心的是向量各个维度的绝对差异时

我的踩坑经验： 刚开始我用欧几里得距离处理文本，发现长文本总是比短文本距离更远，不是因为语义不同，而是因为长文本的向量"更长"。后来才知道文本更适合用余弦相似度。

计算公式：

实际应用： 在我做的图像检索项目中，欧几里得距离效果就很不错，能准确找到相似的图片。

余弦相似度：关注"方向"而非"长度"

最佳比喻： 想象两个人都在指向远方，余弦相似度关心的不是他们胳膊有多长，而是指的方向有多接近。即使一个人胳膊长、一个胳膊短，只要指向同一个方向，相似度就很高。

为什么文本处理爱用它：

• 不受文本长度影响：一篇长文章和一句短话，只要说的是同一个意思，相似度就高
• 专注语义方向：更关心"说的是什么"，而不是"说了多少"

我的实战经验： 在做文档检索时，余弦相似度救了我的命。之前用欧几里得距离，长文档总是被排到后面，用了余弦相似度后，不管文档长短，只要内容相关，都能准确找到。

计算公式：

选择建议： 做文本、推荐系统？首选余弦相似度。做图像、声音？考虑欧几里得距离。

内积（IP）：既看"方向"也看"强度"

简单理解： 如果说余弦相似度只关心方向，那内积就是既关心方向，也关心"力度"。两个向量不仅要指向同一个方向，而且"力量"越大，相似度越高。

实际应用场景：

• 推荐系统：用户不仅喜欢某类商品，而且喜欢程度很高
• 情感分析：不仅是正面情感，而且情感很强烈

什么时候选它： 当向量的"大小"本身就有意义的时候。比如用户评分向量，[5,5,5]肯定比[1,1,1]更"强烈"，内积能很好地体现这种差异。

计算公式：

注意事项： 内积可能是负数！如果两个向量方向相反，内积就是负的，这时候相似度就很低了。

汉明距离：二进制世界的度量

计算公式：

其中是一个指示函数，当 ai 不等于 bi 时为 1，否则为 0。

适用场景： 衡量二进制向量之间不同位的数量，适用于二进制数据。

杰卡德相似度：集合相似度的经典方法

计算公式：

适用场景： 衡量两个集合的相似度，通过计算交集与并集的比值来表示，适用于集合或稀疏数据。

六、主流向量数据库选型

Milvus：开源界的"老大哥"

我的印象： 功能最全面，社区最活跃，但学习曲线有点陡峭。

适合场景：

• 企业级应用，数据量巨大（百万级以上）
• 需要高可用、集群部署
• 团队有一定技术实力

部署体验： 得益于详细的官方文档和Docker支持，Milvus的部署其实挺友好的。Docker一键启动，配置文件也有很多示例可以参考。

性能表现： PB级数据支持不是吹的，我见过有公司用它处理十亿级向量，查询速度依然很快。

Pinecone：云端的"傻瓜式"选择

我的印象： 最省心的选择，注册就能用，但钱包要准备好。

适合场景：

• 初创公司、快速原型开发
• 不想花时间在运维上
• 数据量中等（千万级以下）

真实体验： 我用它做过几个项目的MVP，从注册到第一次查询，半小时搞定。但随着数据量增长，账单也蹭蹭上涨。

性价比： 小项目香，大项目贵。

Qdrant：性能与易用性的平衡

我的印象： 用Rust写的，性能很不错，API设计也很友好。

适合场景：

• 中小型项目，需要自己部署
• 对性能有要求，但不想学习复杂的配置
• 喜欢尝试新技术的团队

使用体验： Docker一键部署，RESTful API调用简单，文档写得也不错。我用它做过几个项目，印象挺好的。

特色功能： 支持向量过滤，这个功能在很多场景下很有用。

Faiss：科研和原型的首选

我的印象： Facebook AI开源的库，不是完整的数据库，但在算法研究方面无可替代。

适合场景：

• 学术研究、算法验证
• 需要自定义索引算法
• 项目预算有限，愿意自己开发

学习建议： 如果你是新手，强烈建议先从Faiss开始学，能帮你理解向量检索的底层原理。

Weaviate：语义搜索的专家

特色功能： 内置了很多预训练模型，支持多模态搜索，对新手比较友好。

适合场景： 需要快速搭建语义搜索应用，不想花太多时间调参。

Chroma：轻量级的实用选择

我的印象： 轻量、简单，特别适合小规模应用和学习使用。

适合场景： 个人项目、学习向量数据库概念、快速原型验证。

Elasticsearch：老牌搜索引擎的向量化

我的印象： 如果你已经在用ES，那向量搜索功能是个不错的补充。

适合场景： 已有ES基础设施，希望添加向量搜索能力。

PGVector：PostgreSQL的向量扩展

我的印象： 如果你的项目已经重度依赖PostgreSQL，这个扩展能让你无缝集成向量搜索。

适合场景： 基于PostgreSQL的项目，不想引入额外的数据库。

我的选择建议

• 刚入门？ 先玩玩Faiss，理解原理
• 快速验证想法？ Pinecone，贵但省心
• 中小项目？ Qdrant，性价比高
• 企业级应用？ Milvus，功能最全
• 已有PostgreSQL？ 试试PGVector，成本最低

写在最后：向量数据库的学习之路

写完这篇文章，回想起我第一次接触向量数据库的懵逼状态，到现在能在项目中熟练运用，这一路踩了不少坑，也有不少收获。

给新手的建议：

先跑通一个简单例子：理论再多，不如动手试一试
选择合适的工具：别一上来就搞最复杂的，从简单的开始
理解业务场景：技术是为业务服务的，想清楚你要解决什么问题
多试试不同的相似度计算方法：没有银弹，要根据数据特点选择

下一步可以做什么：

• 试试把这篇文章的内容用向量数据库存起来，做个简单的问答系统
• 了解一下RAG的完整流程，向量数据库只是其中一环
• 关注一下最新的embedding模型，模型越好，向量质量越高

向量数据库这个领域发展很快，但核心思想不会变：让机器理解语义，让检索更智能。

普通人如何抓住AI大模型的风口？

领取方式在文末

为什么要学习大模型？

目前AI大模型的技术岗位与能力培养随着人工智能技术的迅速发展和应用，大模型作为其中的重要组成部分，正逐渐成为推动人工智能发展的重要引擎。大模型以其强大的数据处理和模式识别能力，广泛应用于自然语言处理、计算机视觉、智能推荐等领域，为各行各业带来了革命性的改变和机遇。

目前，开源人工智能大模型已应用于医疗、政务、法律、汽车、娱乐、金融、互联网、教育、制造业、企业服务等多个场景，其中，应用于金融、企业服务、制造业和法律领域的大模型在本次调研中占比超过 30%。
在这里插入图片描述

随着AI大模型技术的迅速发展，相关岗位的需求也日益增加。大模型产业链催生了一批高薪新职业：
在这里插入图片描述

人工智能大潮已来，不加入就可能被淘汰。如果你是技术人，尤其是互联网从业者，现在就开始学习AI大模型技术，真的是给你的人生一个重要建议！

最后

只要你真心想学习AI大模型技术，这份精心整理的学习资料我愿意无偿分享给你，但是想学技术去乱搞的人别来找我！

在当前这个人工智能高速发展的时代，AI大模型正在深刻改变各行各业。我国对高水平AI人才的需求也日益增长，真正懂技术、能落地的人才依旧紧缺。我也希望通过这份资料，能够帮助更多有志于AI领域的朋友入门并深入学习。

真诚无偿分享！！！
vx扫描下方二维码即可
加上后会一个个给大家发
在这里插入图片描述

大模型全套学习资料展示

自我们与MoPaaS魔泊云合作以来，我们不断打磨课程体系与技术内容，在细节上精益求精，同时在技术层面也新增了许多前沿且实用的内容，力求为大家带来更系统、更实战、更落地的大模型学习体验。

希望这份系统、实用的大模型学习路径，能够帮助你从零入门，进阶到实战，真正掌握AI时代的核心技能！

01 教学内容

从零到精通完整闭环：【基础理论 →RAG开发 → Agent设计 → 模型微调与私有化部署调→热门技术】5大模块，内容比传统教材更贴近企业实战！
大量真实项目案例： 带你亲自上手搞数据清洗、模型调优这些硬核操作，把课本知识变成真本事‌！

02适学人群

应届毕业生‌： 无工作经验但想要系统学习AI大模型技术，期待通过实战项目掌握核心技术。

零基础转型‌： 非技术背景但关注AI应用场景，计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能突破瓶颈： 传统开发者（Java/前端等）学习Transformer架构与LangChain框架，向AI全栈工程师转型‌。

vx扫描下方二维码即可
在这里插入图片描述

本教程比较珍贵，仅限大家自行学习，不要传播！更严禁商用！

03 入门到进阶学习路线图

大模型学习路线图，整体分为5个大的阶段：

04 视频和书籍PDF合集

从0到掌握主流大模型技术视频教程（涵盖模型训练、微调、RAG、LangChain、Agent开发等实战方向）

新手必备的大模型学习PDF书单来了！全是硬核知识，帮你少走弯路（不吹牛，真有用）

05 行业报告+白皮书合集

收集70+报告与白皮书，了解行业最新动态！

06 90+份面试题/经验

AI大模型岗位面试经验总结（谁学技术不是为了赚$呢，找个好的岗位很重要）
在这里插入图片描述

07 deepseek部署包+技巧大全

在这里插入图片描述

由于篇幅有限

只展示部分资料

并且还在持续更新中…

真诚无偿分享！！！
vx扫描下方二维码即可
加上后会一个个给大家发
在这里插入图片描述

本文章已经生成可运行项目