使用Fleet AI Embeddings构建文档检索和代码生成系统

最新推荐文章于 2025-11-27 14:26:48 发布

原创最新推荐文章于 2025-11-27 14:26:48 发布 · 426 阅读

CC 4.0 BY-SA版权

文章标签：

# 使用Fleet AI Embeddings构建文档检索和代码生成系统

## 引言

随着Python在数据科学和AI领域的广泛应用，开发者需要快速获取并使用各种Python库的文档。Fleet AI团队通过嵌入流行Python库的文档，提供了一种创新的解决方案。本篇文章将介绍如何使用Fleet AI提供的嵌入向量来构建一个文档检索系统，并进一步实现简单的代码生成链。

## 主要内容

### 什么是Fleet AI Embeddings？

Fleet AI Embeddings是一个高质量的数据集，包含了1200个流行的Python库及其文档的嵌入。通过这些嵌入，开发者可以实现快速准确的文档检索和代码生成。

### 如何加载Fleet AI嵌入？

首先，我们需要安装相关的Python包：

```shell
%pip install --upgrade --quiet langchain fleet-context langchain-openai pandas faiss-cpu

然后，我们可以使用以下函数来加载嵌入：

from typing import Any, Optional, Type
import pandas as pd
from langchain.retrievers import MultiVectorRetriever
from langchain_community.vectorstores import FAISS
from langchain_core.documents import Document
from langchain_core.stores import BaseStore
from langchain_core.vectorstores import VectorStore
from langchain_openai import OpenAIEmbeddings

def load_fleet_retriever(
    df: pd.DataFrame,
    *,
    vectorstore_cls: Type[VectorStore] = FAISS,
    docstore: Optional[BaseStore] = None,
    **kwargs: Any,
):
    vectorstore = _populate_vectorstore(df, vectorstore_cls)
    if docstore is None:
        return vectorstore.as_retriever(**kwargs)
    else:
        _populate_docstore(df, docstore)
        return MultiVectorRetriever(
            vectorstore=vectorstore, docstore=docstore, id_key="parent", **kwargs
        )

def _populate_vectorstore(
    df: pd.DataFrame,
    vectorstore_cls: Type[VectorStore],
) -> VectorStore:
    if not hasattr(vectorstore_cls, "from_embeddings"):
        raise ValueError(
            f"Incompatible vector store class {vectorstore_cls}."
            "Must implement `from_embeddings` class method."
        )
    texts_embeddings = []
    metadatas = []
    for _, row in df.iterrows():
        texts_embeddings.append((row.metadata["text"], row["dense_embeddings"]))
        metadatas.append(row.metadata)
    return vectorstore_cls.from_embeddings(
        texts_embeddings,
        OpenAIEmbeddings(model="text-embedding-ada-002"),
        metadatas=metadatas,
    )

构建文档检索系统

from context import download_embeddings

df = download_embeddings("langchain")  # 使用LangChain的嵌入
vecstore_retriever = load_fleet_retriever(df)

result = vecstore_retriever.invoke("How does the multi vector retriever work")
print(result)

集成到代码生成链

from langchain_core.output_parsers import StrOutputParser
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.runnables import RunnablePassthrough
from langchain_openai import ChatOpenAI

prompt = ChatPromptTemplate.from_messages(
    [
        (
            "system",
            """You are a great software engineer who is very familiar \
with Python. Given a user question or request about a new Python library called LangChain and \
parts of the LangChain documentation, answer the question or generate the requested code.""",
        ),
        ("human", "{question}"),
    ]
)

model = ChatOpenAI(model="gpt-3.5-turbo-16k")

chain = (
    {
        "question": RunnablePassthrough(),
        "context": vecstore_retriever
        | (lambda docs: "\n\n".join(d.page_content for d in docs)),
    }
    | prompt
    | model
    | StrOutputParser()
)

for chunk in chain.invoke("How do I create a FAISS vector store retriever that returns 10 documents per search query"):
    print(chunk, end="", flush=True)