ZenML项目实战：使用嵌入技术提升RAG检索性能-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00505/article/details/148524389

ZenML项目实战：使用嵌入技术提升RAG检索性能

zenml ZenML 🙏: Build portable, production-ready MLOps pipelines. https://zenml.io. 项目地址: https://gitcode.com/gh_mirrors/ze/zenml

什么是嵌入技术？

在构建基于检索增强生成(RAG)的AI应用时，嵌入技术(Embeddings)扮演着至关重要的角色。嵌入是将文本数据转换为高维向量空间中的数值表示，它能捕捉文本的语义信息和上下文关系。简单来说，嵌入技术就像给每段文字赋予一个独特的"数字指纹"，语义相近的文本在向量空间中的距离也会更近。

为什么需要嵌入技术？

传统的关键词匹配检索方式存在明显局限：

无法理解同义词和语义关联
对复杂查询效果不佳
难以处理长文档的语义关系

而嵌入技术能够：

捕捉文本深层次的语义特征
实现基于语义相似度的智能检索
提升RAG系统的响应质量

ZenML中的嵌入生成实现

在ZenML项目中，我们使用sentence-transformers库来生成高质量的文本嵌入。下面是一个典型的嵌入生成步骤实现：

from typing import Annotated, List
import numpy as np
from sentence_transformers import SentenceTransformer
from structures import Document
from zenml import ArtifactConfig, log_artifact_metadata, step

@step
def generate_embeddings(
    split_documents: List[Document],
) -> Annotated[
    List[Document], ArtifactConfig(name="documents_with_embeddings")
]:
    try:
        # 使用预训练的MiniLM模型
        model = SentenceTransformer("sentence-transformers/all-MiniLM-L12-v2")

        # 记录元数据
        log_artifact_metadata(
            artifact_name="embeddings",
            metadata={
                "embedding_type": "sentence-transformers/all-MiniLM-L12-v2",
                "embedding_dimensionality": 384,
            },
        )

        # 生成嵌入向量
        document_texts = [doc.page_content for doc in split_documents]
        embeddings = model.encode(document_texts)

        # 将嵌入向量关联到文档
        for doc, embedding in zip(split_documents, embeddings):
            doc.embedding = embedding

        return split_documents
    except Exception as e:
        logger.error(f"Error in generate_embeddings: {e}")
        raise

关键点解析：

模型选择：我们使用了MiniLM-L12-v2模型，这是一个平衡了性能和效率的轻量级模型，生成384维的嵌入向量。
元数据记录：通过ZenML的log_artifact_metadata记录嵌入类型和维度信息，便于后续追踪和管理。
错误处理：完善的异常处理机制确保流程稳定性。

嵌入向量可视化分析

高维嵌入向量难以直接理解，我们可以通过降维技术将其可视化：

# UMAP降维可视化
def umap_visualization(embeddings, parent_sections):
    umap_2d = umap.UMAP(n_components=2, random_state=42)
    embeddings_2d = umap_2d.fit_transform(embeddings)
    
    # 可视化代码...