利用Fleet AI嵌入打造文档检索与生成系统

最新推荐文章于 2025-12-09 16:47:37 发布

原创最新推荐文章于 2025-12-09 16:47:37 发布 · 507 阅读

CC 4.0 BY-SA版权

文章标签：

# 引言

随着Python库的日益丰富，能够快速检索相关文档并进行代码生成变得至关重要。Fleet AI通过嵌入高质量的Python库，为开发者提供了支持文档检索和代码生成的基础。这篇文章将介绍如何使用Fleet AI的嵌入数据构建一个文档检索系统，并展示如何利用检索到的文档片段生成代码。

# 主要内容

## 1. 什么是Fleet AI Context？

Fleet AI Context是由Fleet AI团队构建的数据集，包含1200个流行Python库的文档嵌入。通过嵌入这些库，开发者可以基于最新的文档进行代码生成。LangChain库就是这些嵌入的一个例子。

## 2. 如何加载和使用Fleet AI的嵌入？

要开始使用Fleet AI提供的嵌入数据，我们首先需要通过安装必要的Python包并下载嵌入文件。

```bash
%pip install --upgrade --quiet langchain fleet-context langchain-openai pandas faiss-cpu

加载嵌入数据

我们可以使用download_embeddings()函数来下载LangChain文档的嵌入数据，然后使用load_fleet_retriever()函数来加载这些嵌入数据到我们的检索器中。

from context import download_embeddings

df = download_embeddings("langchain")
vecstore_retriever = load_fleet_retriever(df)

3. 通过嵌入实现文档检索

Fleet AI团队在嵌入过程中，会将长文档分成多个小段。我们可以使用这些文档片段进行精确的检索，而不仅限于整页文档。

4. 返回完整文档

我们可以利用MultiVectorRetriever和BaseStore对象，检索到相关的文档片段并将其映射回完整的父文档。

from langchain.storage import InMemoryStore

parent_retriever = load_fleet_retriever(
    "https://www.dropbox.com/scl/fi/4rescpkrg9970s3huz47l/libraries_langchain_release.parquet?rlkey=283knw4wamezfwiidgpgptkep&dl=1",
    docstore=InMemoryStore(),
)

5. 创建检索和生成链

接下来，我们将检索系统与生成系统结合，形成简单的处理链。

from langchain_core.output_parsers import StrOutputParser
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.runnables import RunnablePassthrough
from langchain_openai import ChatOpenAI

prompt = ChatPromptTemplate.from_messages(
    [
        (
            "system",
            """You are a great software engineer. Given a user question about LangChain and parts of its documentation, answer accurately with code if possible.""",
        ),
        ("human", "{question}"),
    ]
)

model = ChatOpenAI(model="gpt-3.5-turbo-16k")

chain = (
    {
        "question": RunnablePassthrough(),
        "context": parent_retriever
        | (lambda docs: "\n\n".join(d.page_content for d in docs)),
    }
    | prompt
    | model
    | StrOutputParser()
)

for chunk in chain.invoke("How do I create a FAISS vector store retriever that returns 10 documents per search query"):
    print(chunk, end="", flush=True)