一文读懂 Embeddings 与 RAG 架构：分词、向量数据库到生产级系统设计-优快云博客

本文链接：https://blog.youkuaiyun.com/llm_way/article/details/148471284

一、AI时代的语义理解革命

在人工智能技术迅猛发展的今天，智能系统正从简单的规则匹配迈向更复杂的语义理解。无论是智能客服回答企业文档问题，还是推荐系统精准捕捉用户偏好，亦或是语义搜索引擎实现概念级检索，其核心都离不开一项关键技术——嵌入（Embeddings）与检索增强生成（Retrieval-Augmented Generation, RAG）。

本文将深入探讨嵌入与RAG的完整技术栈，从基础理论到生产实践，涵盖分词策略、向量数据库选型、架构优化等核心环节，帮助读者构建从文本到语义空间的完整认知，并掌握可落地的RAG系统搭建方法。

二、嵌入与分词：从文本到语义向量的桥梁

2.1 嵌入：高维空间中的语义坐标

嵌入是将文本、图像等数据转换为高维数值向量的过程，其核心目标是在向量空间中捕获语义关联。例如，句子“The dog is running”与“A canine is jogging”的嵌入向量在空间中距离极近，而与“The car is broken”则相距较远，这体现了嵌入对语义相似性的捕捉能力。

技术实现

词级模型
：如Word2Vec、GloVe，为每个词分配固定向量，但无法处理一词多义（如“bank”在“河岸”与“银行”中的差异）。
上下文模型
：以BERT为代表，根据上下文动态生成词向量，解决一词多义问题。例如，“bank”在不同语境下会生成不同向量。
句/文档级模型
：如Sentence-BERT、OpenAI嵌入模型，专为句子和段落设计，适合文档检索场景。例如，使用SentenceTransformer生成384维向量，通过余弦相似度计算文本间相似性。

核心价值

突破关键词匹配局限：用户查询“What organelle produces energy?”与文档内容“Mitochondria are the powerhouse of the cell”无共享关键词，但嵌入搜索可识别概念关联。
构建语义空间：在多维空间中，相似概念聚类、关系可计算（如“国王-男人+女人≈女王”），为智能系统提供语义推理基础。

2.2 分词：语义转换的前置引擎

分词是将文本拆解为模型可处理的最小单元的过程，其核心目标是确保文档索引与查询处理的一致性。

关键技术

子词分词（Subword Tokenization）
：将生词拆解为已知子词（如“Mitochondria”拆分为“mit##och##ond##ria”），有效处理未登录词，控制词汇表规模。
分词器一致性
：索引与查询需使用同一分词器，避免因分词规则差异导致的语义失配。例如，使用BERT分词器索引文档后，查询也必须使用相同分词器。
分块策略
：长文档需按语义边界分块（如300-512 tokens/块，重叠50 tokens），避免关键信息被截断。例如，使用滑动窗口法生成带重叠的文本块。

实践示例

from transformers import AutoTokenizertokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")text = "Mitochondria are cellular powerhouses"tokens = tokenizer.tokenize(text)  # 输出: ['mit', '##och', '##ond', '##ria', 'are', 'cellular', 'power', '##houses']